Início Tecnologia Descrevendo Phi-3-Visision: Arquitetura, pré-treinamento e pós-treinamento para IA visual

Descrevendo Phi-3-Visision: Arquitetura, pré-treinamento e pós-treinamento para IA visual

8
0

 

Resumo e 1 Introdução

2 especificações técnicas

3 benchmarks acadêmicos

4 Segurança

5 fraqueza

6 Phi-3-Vision

6.1 Especificações técnicas

6.2 Benchmarks acadêmicos

6.3 Segurança

6.4 Fraqueza

Referências

Um exemplo de prompt para benchmarks

B Autores (alfabéticos)

C Agradecimentos

6.1 Especificações técnicas

Arquitetura O Phi-3-Vision (Parâmetros 4.2b) é um modelo multimodal projetado para processar uma imagem e um prompt textual como entradas e, posteriormente, gerar saídas textuais. Este modelo é composto por dois componentes primários: um codificador de imagem, ou seja, clip vit-l/14 [RKH+ 21] e um decodificador do transformador, ou seja, Phi-3-Mini-128K-Instruct. Os tokens visuais, uma vez extraídos pelo codificador de imagem, são então combinados com tokens de texto de maneira intercalada (nenhuma ordem específica para tokens de imagem e texto). Para acomodar imagens de alta resolução e várias proporções de aspecto, uma estratégia dinâmica de cultivo [DZZ+ 24b] é utilizado para dividir a imagem de entrada em uma matriz 2D de blocos, onde os tokens dos blocos são concatenados para representar toda a imagem.

Pré-treinamento O Phi-3-Vision O modelo passa por uma fase de pré-treinamento usando um conjunto de dados diversificado, que consiste em uma combinação de documentos de texto de imagem intercalados (por exemplo,, [LST+ 24]), pares de texto de imagem de FLD-5B [XWX+ 24]dados sintéticos derivados do reconhecimento de caracteres ópticos (OCR) de arquivos PDF, conjuntos de dados para compreensão de gráfico/tabela e dados somente de texto. O objetivo de prever o próximo token é empregado especificamente em tokens de texto, enquanto qualquer perda associada aos tokens de imagem é desconsiderada durante esta fase. O processo de pré-treinamento envolve um total de tokens de 0,5T que abrangem elementos visuais e de texto. Durante a fase de pré-treinamento, a resolução máxima da imagem é limitada a 1344 × 1344, pois a maioria das imagens de treinamento é menor que essa resolução.

Pós-treinamento. O Phi-3-Vision O modelo contém dois estágios pós-treinamento: Finetuning supervisionado (SFT) e otimização direta de preferência (DPO). Para a SFT, aproveitamos o conjunto de dados SFT de texto, conjuntos de dados de ajuste de instrução multimodal pública, juntamente com conjuntos de dados de ajuste multimodais em larga escala que construímos, abrangendo diversos domínios e tarefas como compreensão geral da imagem natural, gráfico/tabela/- diagrama compreensão/raciocínio, compreensão e segurança do modelo. Os dados SFT multimodais têm cerca de um total de tokens de 15b. Para o DPO, usamos principalmente um conjunto de dados DPO de texto e um conjunto de dados DPO multimodal de escala relativamente menor. Para esses dois estágios, treinamos em conjunto tarefas multimodais e tarefas de tetografia para que o modelo possa atingir o raciocínio multimodal, mantendo os recursos do idioma o máximo possível.

Autores:

(1) Marah Abdin;

(2) Sam Ade Jacobs;

(3) Ammar Ahmad Awan;

(4) Jyoti Aneja;

(5) Ahmed Awadallah;

(6) Hany Awadalla;

(7) Nguyen Bach;

(8) Amit Bahree;

(9) Arash Bakhtiari;

(10) Jianmin Bao;

(11) Harkirat Behl;

(12) Alon Benhaim;

(13) Misha Bilenko;

(14) Johan Bjorck;

(15) Sébastien Bubeck;

(16) Qin Cai;

(17) Martin Cai;

(18) Caio César Teodoro Mendes;

(19) Weizhu Chen;

(20) Vishrav Chaudhary;

(21) Dong Chen;

(22) Dongdong Chen;

(23) Yen-Chun Chen;

(24) Yi-Ling Chen;

(25) Parul Chopra;

(26) Xiyang Dai;

(27) Allie del Giorno;

(28) Gustavo de Rosa;

(29) Matthew Dixon;

(30) Ronen Eldan;

(31) Victor Fragoso;

(32) Dan Iter;

(33) Mei Gao;

(34) Min Gao;

(35) Jianfeng Gao;

(36) Amit Garg;

(37) Abhishek Goswami;

(38) Suriya Gunasekar;

(39) Emman Haider;

(40) Junheng Hao;

(41) Russell J. Hewett;

(42) Jamie Huynh;

(43) Mojan Javaheripi;

(44) Xin Jin;

(45) Piero Kauffmann;

(46) Nikos Karampatziakis;

(47) Dongwoo Kim;

(48) Mahoud Khademi;

(49) Lev Kurilenko;

(50) James R. Lee;

(51) Yin Tat Lee;

(52) Yuanzhi Li;

(53) Yunsheng Li;

(54) Chen Liang;

(55) Lars Liden;

(56) CE Liu;

(57) Mengchen Liu;

(58) Weishung Liu;

(59) Eric Lin;

(60) zeqi lin;

(61) Chong Luo;

(62) Piyush Madan;

(63) Matt Mazzola;

(64) Arindam Mitra;

(65) Hardik Modi;

(66) Anh Nguyen;

(67) Brandon Norick;

(68) Barun Patra;

(69) Daniel Perez-Becker;

(70) Thomas Portet;

(71) Reid Pryzant;

(72) Heyang Qin;

(73) Marko Radmilac;

(74) Corby Rosset;

(75) Sambudha Roy;

(76) Olatunji Ruwase;

(77) Olli Saarikivi;

(78) Amin Saied;

(79) Adil Salim;

(80) Michael Santacroce;

(81) Shital Shah;

(82) Ning Shang;

(83) Hiteshi Sharma;

(84) Swadheen Shukla;

(85) Song Xia;

(86) Masahiro Tanaka;

(87) Andrea Tupini;

(88) Xin Wang;

(89) Lijuan Wang;

(90) Chunyu Wang;

(91) Yu Wang;

(92) Rachel Ward;

(93) Guanhua Wang;

(94) Philipp Witte;

(95) Haiping Wu;

(96) Michael Wyatt;

(97) bin xiao;

(98) pode xu;

(99) Jiahang Xu;

(100) Weijian Xu;

(101) Sonali Yadav;

(102) fã Yang;

(103) Jianwei Yang;

(104) Ziyi Yang;

(105) Yifan Yang;

(106) Donghan Yu;

(107) Lu Yuan;

(108) Chengruidong Zhang;

(109) Cyril Zhang;

(110) Jianwen Zhang;

(111) Ly Lyna Zhang;

(112) Yi Zhang;

(113) Yue Zhang;

(114) Yunan Zhang;

(115) Xiren Zhou.


fonte