Início Tecnologia Desempenho triunfante da Phi-3-Vision em benchmarks multimodais-chave

Tecnologia

Desempenho triunfante da Phi-3-Vision em benchmarks multimodais-chave

Por

Bouville Fabienne

12 Julho 2025

Tabela de links

Resumo e 1 Introdução

2 especificações técnicas

3 benchmarks acadêmicos

4 Segurança

5 fraqueza

6 Phi-3-Vision

6.1 Especificações técnicas

6.2 Benchmarks acadêmicos

6.3 Segurança

6.4 Fraqueza

Referências

Um exemplo de prompt para benchmarks

B Autores (alfabéticos)

C Agradecimentos

6.2 Benchmarks acadêmicos

Relatamos na Tabela 2 os resultados da avaliação da visão PHI-3 em nove parâmetros acadêmicos de código aberto. Esses benchmarks avaliam as capacidades de raciocínio e perceptivas sobre entradas visuais e de texto e podem ser agrupadas em três categorias: ciência, gráficos e conhecimento genérico. Comparamos Phi-3-Vision com as seguintes linhas de base: MM1-3b-Chat [MGF+ 24]Mm1-7b-chat [MGF+ 24]Llava-1.6 Vicuna 7b [LLLL23]Llava-1.6 llama3-8b [LLL+ 24]Qwen-vl-chat [BBY+ 23]Claude 3 haiku [Ant24]Gemini 1.0 Pro V [TAB+ 23]e GPT-4V-Turbo. Nossa configuração de avaliação da qualidade de desempenho usou o mesmo pipeline de avaliação para todas as linhas de base para garantir uma comparação justa, com exceção do MM1-3b-Chat. Acabamos de copiar e colar seus números publicados, pois o modelo não está disponível ao público.

Nossa configuração de avaliação teve como objetivo imitar os cenários em que usuários regulares interagem com um modelo multimodal, ou seja, usuários que não são especialistas em engenharia imediata ou conhecem técnicas especiais que podem melhorar o desempenho. Por esse motivo, adotamos o cenário de avaliação usado em llava-1.5 [LLLL23]. Nesta configuração, os avisos incluem instruções para selecionar uma única letra correspondente a uma resposta de uma lista de opções especificadas ou responder com uma única palavra ou frase. Em nossos avisos, não usamos tokens específicos para perguntas de múltipla escolha. Além disso, não escalamos ou pré-processamos nenhuma imagem em nosso sistema de benchmarking. Colocamos as imagens como o primeiro item nos avisos, exceto no conjunto de dados MMMU, onde os avisos interlamem as imagens em qualquer lugar da pergunta ou nas respostas. Por fim, nossa configuração de avaliação considerou apenas um formato de 0 tiro. Devido a esses parâmetros de avaliação, nossos números relatados podem diferir dos números publicados das linhas de base consideradas.

Autores:

(1) Marah Abdin;

(2) Sam Ade Jacobs;

(3) Ammar Ahmad Awan;

(4) Jyoti Aneja;

(5) Ahmed Awadallah;

(6) Hany Awadalla;

(7) Nguyen Bach;

(8) Amit Bahree;

(9) Arash Bakhtiari;

(10) Jianmin Bao;

(11) Harkirat Behl;

(12) Alon Benhaim;

(13) Misha Bilenko;

(14) Johan Bjorck;

(15) Sébastien Bubeck;

(16) Qin Cai;

(17) Martin Cai;

(18) Caio César Teodoro Mendes;

(19) Weizhu Chen;

(20) Vishrav Chaudhary;

(21) Dong Chen;

(22) Dongdong Chen;

(23) Yen-Chun Chen;

(24) Yi-Ling Chen;

(25) Parul Chopra;

(26) Xiyang Dai;

(27) Allie del Giorno;

(28) Gustavo de Rosa;

(29) Matthew Dixon;

(30) Ronen Eldan;

(31) Victor Fragoso;

(32) Dan Iter;

(33) Mei Gao;

(34) Min Gao;

(35) Jianfeng Gao;

(36) Amit Garg;

(37) Abhishek Goswami;

(38) Suriya Gunasekar;

(39) Emman Haider;

(40) Junheng Hao;

(41) Russell J. Hewett;

(42) Jamie Huynh;

(43) Mojan Javaheripi;

(44) Xin Jin;

(45) Piero Kauffmann;

(46) Nikos Karampatziakis;

(47) Dongwoo Kim;

(48) Mahoud Khademi;

(49) Lev Kurilenko;

(50) James R. Lee;

(51) Yin Tat Lee;

(52) Yuanzhi Li;

(53) Yunsheng Li;

(54) Chen Liang;

(55) Lars Liden;

(56) CE Liu;

(57) Mengchen Liu;

(58) Weishung Liu;

(59) Eric Lin;

(60) zeqi lin;

(61) Chong Luo;

(62) Piyush Madan;

(63) Matt Mazzola;

(64) Arindam Mitra;

(65) Hardik Modi;

(66) Anh Nguyen;

(67) Brandon Norick;

(68) Barun Patra;

(69) Daniel Perez-Becker;

(70) Thomas Portet;

(71) Reid Pryzant;

(72) Heyang Qin;

(73) Marko Radmilac;

(74) Corby Rosset;

(75) Sambudha Roy;

(76) Olatunji Ruwase;

(77) Olli Saarikivi;

(78) Amin Saied;

(79) Adil Salim;

(80) Michael Santacroce;

(81) Shital Shah;

(82) Ning Shang;

(83) Hiteshi Sharma;

(84) Swadheen Shukla;

(85) Song Xia;

(86) Masahiro Tanaka;

(87) Andrea Tupini;

(88) Xin Wang;

(89) Lijuan Wang;

(90) Chunyu Wang;

(91) Yu Wang;

(92) Rachel Ward;

(93) Guanhua Wang;

(94) Philipp Witte;

(95) Haiping Wu;

(96) Michael Wyatt;

(97) bin xiao;

(98) pode xu;

(99) Jiahang Xu;

(100) Weijian Xu;

(101) Sonali Yadav;

(102) fã Yang;

(103) Jianwei Yang;

(104) Ziyi Yang;

(105) Yifan Yang;

(106) Donghan Yu;

(107) Lu Yuan;

(108) Chengruidong Zhang;

(109) Cyril Zhang;

(110) Jianwen Zhang;

(111) Ly Lyna Zhang;

(112) Yi Zhang;

(113) Yue Zhang;

(114) Yunan Zhang;

(115) Xiren Zhou.

fonte

Desempenho triunfante da Phi-3-Vision em benchmarks multimodais-chave

Tabela de links

6.2 Benchmarks acadêmicos

Recente

Meu aspirador de Dyson favorito limpa minha casa e meu carro

Israel tem como alvo o governo sírio com ataque à sede...

Tremendous Eagles Defender pronto para se juntar ao clube francês Nantes

Spoilers iniciais ousados e bonitos de 21 a 25 de julho:...

Este telefone OnePlus de médio porte diminui o Galaxy S25 –...

O governo Trump processou por 20 estados por cortar subsídios de...

Stat mostra como o molho dominante Gardner tem sido desde que...

‘Uma puxão de uma vez na vida’: você pularia seu próprio...

Esse vácuo de robô me surpreendeu com sua capacidade de navegação...

Todas as concessionárias de carros do Reino Unido vão parar de...