Início Tecnologia Segurança da Fortifying LLM: Alinhamento AI responsável de Phi-3

Segurança da Fortifying LLM: Alinhamento AI responsável de Phi-3

6
0

 

Resumo e 1 Introdução

2 especificações técnicas

3 benchmarks acadêmicos

4 Segurança

5 fraqueza

6 Phi-3-Vision

6.1 Especificações técnicas

6.2 Benchmarks acadêmicos

6.3 Segurança

6.4 Fraqueza

Referências

Um exemplo de prompt para benchmarks

B Autores (alfabéticos)

C Agradecimentos

4 Segurança

Phi-3-mini foi desenvolvido de acordo com os princípios responsáveis ​​da IA ​​da Microsoft. A abordagem geral consistiu no alinhamento de segurança nas categorias de pós-treinamento, tonificações vermelhas, automatizadas em dezenas de categorias de danos da RAI. Conjuntos de dados de preferência de utilidade e inovação [BJN+ 22, JLD+ 23] com modificações inspiradas por [BSA+ 24] e vários conjuntos de dados gerados internos foram aproveitados para abordar as categorias de danos da RAI em segurança após o treinamento. Uma equipe vermelha independente da Microsoft examinou iterativamente Phi-3-mini para identificar ainda mais áreas de melhoria durante o processo pós-treinamento. Com base no feedback deles, selecionamos conjuntos de dados adicionais adaptados para abordar suas idéias, refinando assim o conjunto de dados pós-treinamento. Esse processo resultou em uma diminuição significativa de taxas de resposta prejudiciais, como mostrado na Figura 4.

” alt=”” aria-hidden=”true” />Figura 4: Comparação de porcentagens de resposta prejudicial pela equipe da Microsoft AI Red entre Phi-3-mini antes e após o alinhamento de segurança. Observe que as porcentagens de resposta prejudiciais neste gráfico são números inflados, pois a equipe vermelha tentou induzir Phi-3-mini de maneira adversária a gerar respostas nocivas por meio de conversas com várias turnos.Figura 4: Comparação de porcentagens de resposta prejudicial pela equipe da Microsoft AI Red entre Phi-3-mini antes e após o alinhamento de segurança. Observe que as porcentagens de resposta prejudiciais neste gráfico são números inflados, pois a equipe vermelha tentou induzir Phi-3-mini de maneira adversária a gerar respostas nocivas por meio de conversas com várias turnos.

Tabela 1: Comparação dos resultados internos da Microsoft, de referência RAI RAI de modelos PHI-3 e outros modelos. Observe que um valor mais baixo indica um melhor desempenho para todas as métricas da tabela.Tabela 1: Comparação dos resultados internos da Microsoft, de referência RAI RAI de modelos PHI-3 e outros modelos. Observe que um valor mais baixo indica um melhor desempenho para todas as métricas da tabela.

O alinhamento de segurança de phi-3-small e Phi-3-medium foi conduzido submetido ao mesmo processo de time vermelho, utilizando conjuntos de dados idênticos e incorporando um número um pouco maior de amostras. A Tabela 1 mostra os resultados dos benchmarks RAI internos [MHJ+ 23] para Phi-3 modelos em comparação com phi-2 [JBA+ 23]Mistral-7b-V0.1 [JSM+ 23]Gemma 7b [TMH+ 24]e llama-3-Instruct-8b [AI]. Este benchmark utilizou o GPT-4 para simular conversas com várias turnos em cinco categorias diferentes e avaliar as respostas do modelo. A não aterrissagem entre 0 (totalmente fundamentada) e 4 medidas (não fundamentadas) se as informações em uma resposta forem baseadas em um determinado prompt. Em outras categorias, as respostas foram avaliadas em termos da gravidade da prejudicação de 0 (nenhum dano) a 7 (danos extremos) e as taxas de defeitos (DR-X) foram calculadas como a porcentagem de amostras com a pontuação de gravidade maior ou igual a x.

Autores:

(1) Marah Abdin;

(2) Sam Ade Jacobs;

(3) Ammar Ahmad Awan;

(4) Jyoti Aneja;

(5) Ahmed Awadallah;

(6) Hany Awadalla;

(7) Nguyen Bach;

(8) Amit Bahree;

(9) Arash Bakhtiari;

(10) Jianmin Bao;

(11) Harkirat Behl;

(12) Alon Benhaim;

(13) Misha Bilenko;

(14) Johan Bjorck;

(15) Sébastien Bubeck;

(16) Qin Cai;

(17) Martin Cai;

(18) Caio César Teodoro Mendes;

(19) Weizhu Chen;

(20) Vishrav Chaudhary;

(21) Dong Chen;

(22) Dongdong Chen;

(23) Yen-Chun Chen;

(24) Yi-Ling Chen;

(25) Parul Chopra;

(26) Xiyang Dai;

(27) Allie del Giorno;

(28) Gustavo de Rosa;

(29) Matthew Dixon;

(30) Ronen Eldan;

(31) Victor Fragoso;

(32) Dan Iter;

(33) Mei Gao;

(34) Min Gao;

(35) Jianfeng Gao;

(36) Amit Garg;

(37) Abhishek Goswami;

(38) Suriya Gunasekar;

(39) Emman Haider;

(40) Junheng Hao;

(41) Russell J. Hewett;

(42) Jamie Huynh;

(43) Mojan Javaheripi;

(44) Xin Jin;

(45) Piero Kauffmann;

(46) Nikos Karampatziakis;

(47) Dongwoo Kim;

(48) Mahoud Khademi;

(49) Lev Kurilenko;

(50) James R. Lee;

(51) Yin Tat Lee;

(52) Yuanzhi Li;

(53) Yunsheng Li;

(54) Chen Liang;

(55) Lars Liden;

(56) CE Liu;

(57) Mengchen Liu;

(58) Weishung Liu;

(59) Eric Lin;

(60) zeqi lin;

(61) Chong Luo;

(62) Piyush Madan;

(63) Matt Mazzola;

(64) Arindam Mitra;

(65) Hardik Modi;

(66) Anh Nguyen;

(67) Brandon Norick;

(68) Barun Patra;

(69) Daniel Perez-Becker;

(70) Thomas Portet;

(71) Reid Pryzant;

(72) Heyang Qin;

(73) Marko Radmilac;

(74) Corby Rosset;

(75) Sambudha Roy;

(76) Olatunji Ruwase;

(77) Olli Saarikivi;

(78) Amin Saied;

(79) Adil Salim;

(80) Michael Santacroce;

(81) Shital Shah;

(82) Ning Shang;

(83) Hiteshi Sharma;

(84) Swadheen Shukla;

(85) Song Xia;

(86) Masahiro Tanaka;

(87) Andrea Tupini;

(88) Xin Wang;

(89) Lijuan Wang;

(90) Chunyu Wang;

(91) Yu Wang;

(92) Rachel Ward;

(93) Guanhua Wang;

(94) Philipp Witte;

(95) Haiping Wu;

(96) Michael Wyatt;

(97) bin xiao;

(98) pode xu;

(99) Jiahang Xu;

(100) Weijian Xu;

(101) Sonali Yadav;

(102) fã Yang;

(103) Jianwei Yang;

(104) Ziyi Yang;

(105) Yifan Yang;

(106) Donghan Yu;

(107) Lu Yuan;

(108) Chengruidong Zhang;

(109) Cyril Zhang;

(110) Jianwen Zhang;

(111) Ly Lyna Zhang;

(112) Yi Zhang;

(113) Yue Zhang;

(114) Yunan Zhang;

(115) Xiren Zhou.


fonte