Início Tecnologia O que 300 GB de pesquisa de IA revela sobre os verdadeiros...

O que 300 GB de pesquisa de IA revela sobre os verdadeiros limites da inteligência “Zero Shot”

10
0

 

Autores:

(1) Vishaal Udandarao, Tubingen AI Center, Universidade de Tubingen, Universidade de Cambridge e contribuição igual;

(2) Ameya Prabhu, Tubingen AI Center, Universidade de Tubingen, Universidade de Oxford e Igualista;

(3) Adhiraj Ghosh, Tubingen AI Center, Universidade de Tubingen;

(4) Yash Sharma, Tubingen AI Center, Universidade de Tubingen;

(5) Philip HS Torr, Universidade de Oxford;

(6) Adel Bibi, Universidade de Oxford;

(7) Samuel Albanie, Universidade de Cambridge e Aconselhamento Igual, Ordem decidida por um flip de moedas;

(8) Matthias Bethge, Tubingen AI Center, Universidade de Tubingen e Aconselhamento Igual, Ordem decidida por uma moeda.

Resumo e 1. Introdução

2 conceitos em dados de pré -treinamento e frequência de quantificação

3 Comparando a frequência de pré-treinamento e o desempenho “zero tiro” e a configuração experimental 3.1

3.2 Resultado: A frequência de pré-treinamento é preditiva de desempenho “zero tiro”

4 Testes de estresse A tendência de escala de desempenho de frequência conceitual e 4.1 controlando amostras semelhantes em dados pré-treinamento e a jusante

4.2 Generalização de teste para conceito puramente sintético e distribuições de dados

5 idéias adicionais de frequências de conceito de pré -treinamento

6 Testando a cauda: Deixe -a abanar!

7 Trabalho relacionado

8 Conclusões e problemas abertos, reconhecimentos e referências

Parte I.

Apêndice

A. A frequência do conceito é preditiva de desempenho em estratégias de promoção

B. A frequência do conceito é preditiva de desempenho nas métricas de recuperação

C. A frequência conceitual é preditiva de desempenho para modelos T2i

D. A frequência do conceito é preditiva de desempenho entre conceitos apenas de domínios de imagem e texto

E. Detalhes experimentais

F. Por que e como usamos o RAM ++?

G. Detalhes sobre resultados de grau de desalinhamento

Modelos H. T2i: Avaliação

I. Resultados da classificação: deixe -o abanar!

Resumo

Os conjuntos de dados de pré-treinamento rastreados pela Web estão subjacentes ao impressionante desempenho de avaliação de “tiro zero” de modelos multimodais, como clipe para classificação/recuperação e difusão estável para geração de imagens. No entanto, não está claro o quão significativo a noção de “zero tiro” generalização é para esses modelos multimodais, pois não se sabe até que ponto seus conjuntos de dados pré-treinamento abrangem os conceitos a jusante direcionados para a avaliação “zero tiro”. Neste trabalho, perguntamos: Como o desempenho dos modelos multimodais em conceitos a jusante é influenciado pela frequência desses conceitos em seus conjuntos de dados pré -trepadeiras?

Investigamos abrangente essa questão em 34 modelos e cinco conjuntos de dados de pré-treinamento padrão (CC-3M, CC-12M, YFCC-15M, Laion-400M, Laion-Aesthetics), gerando mais de 300 GB de artefatos de dados. Constatamos consistentemente que, longe de exibir generalização “zero tiro”, os modelos multimodais requerem exponencialmente mais dados para obter melhorias lineares no desempenho a jusante de “tiro zero”, seguindo uma amostra de tendência de escala log-linear ineficiente. Essa tendência persiste mesmo ao controlar a similaridade do nível da amostra entre conjuntos de dados pré-treinamento e a jusante [79]e testes em distribuições de dados puramente sintéticos [51]. Além disso, após os modelos de benchmarking em dados de cauda longa amostrados com base em nossa análise, demonstramos que os modelos multimodais em toda a placa têm um desempenho ruim. Contribuímos com este conjunto de testes de cauda de longa Deixe -o abanar! referência para pesquisas adicionais nessa direção. Tomados em conjunto, nosso estudo revela uma necessidade exponencial de dados de treinamento, o que implica que a chave para os recursos de generalização de “tiro zero” em paradigmas de treinamento em larga escala ainda não foi encontrado.

1 Introdução

Modelos multimodais como clipe [91] e difusão estável [96] revolucionaram o desempenho em tarefas a jusante-o clipe agora é o padrão de fato do reconhecimento de imagem “zero tiro” [133, 72, 126, 48, 132] e Recuperação ImageEtext [46, 64, 24, 117, 129]enquanto a difusão estável é agora o padrão de fato para a geração de texto para imagem “Zero Shot” (T2I) [93, 17, 96, 41]. Neste trabalho, investigamos esse sucesso empírico através da lente da generalização zero-tiro [69]que se refere à capacidade do modelo de aplicar seu conhecimento instruído a novos conceitos invisíveis. Consequentemente, perguntamos: Os modelos multimodais atuais são realmente capazes de generalização “zero tiro”?

Para abordar isso, realizamos uma análise comparativa envolvendo dois fatores principais: (1) o desempenho dos modelos em várias tarefas a jusante e (2) a frequência dos conceitos de teste em seus conjuntos de dados pré -treinamento. Compilamos uma lista abrangente de 4, 029 conceitos[1] De 27 tarefas a jusante que abrangem a geração de classificação, recuperação e imagem, avaliando o desempenho em relação a esses conceitos. Nossa análise durou cinco conjuntos de dados de pré-treinamento em larga escala com diferentes escalas, métodos de curadoria de dados e fontes (CC-3M [107]CC-12M [27]YFCC-15M [113]Laion-estética [103]Laion-400m [102]) e avaliou o desempenho de 10 modelos de clipe e 24 modelos de T2i, abrangendo diferentes arquiteturas e escalas de parâmetros. Encontramos consistentemente em todos os nossos experimentos que, entre os conceitos, a frequência de um conceito no conjunto de dados pré -treinamento é um forte preditor do desempenho do modelo em exemplos de teste que contêm esse conceito. Notavelmente, Modelo de desempenho escala linearmente à medida que a frequência conceitual nos dados de pré -treinamento cresce exponencialmente ou seja, Observamos uma tendência consistente de escala log-linear. Descobrimos que essa tendência log-linear é robusta de controlar fatores correlacionados (amostras semelhantes nos dados de pré-treinamento e teste [79]) e testes em diferentes distribuições conceituais, juntamente com amostras geradas totalmente sinteticamente [51].

Nossas descobertas indicam que o impressionante desempenho empírico de modelos multimodais, como clipe e difusão estável, pode ser amplamente atribuído à presença de conceitos de teste em seus vastos conjuntos de dados pré-treinos, portanto, seu desempenho empírico relatado não constitui a generalização “zero tiro”. Pelo contrário, esses modelos requerem exponencialmente mais dados sobre um conceito para melhorar linearmente seu desempenho em tarefas referentes a esse conceito, destacando a extrema ineficiência da amostra.

Em nossa análise, documentamos adicionalmente a distribuição de conceitos encontrados em dados pré -treinamento e descobrimos que:

• Distribuição conceitual: Em todos os conjuntos de dados de pré-treinamento, a distribuição de conceitos é de cauda longa (ver Fig. 5 na Seção 5), o que indica que uma grande fração de conceitos é rara. No entanto, dada a extrema ineficiência da amostra observada, o que é raro não é aprendido adequadamente durante o pré -treinamento multimodal.

• Correlação de conceito nos conjuntos de dados pré -treinamento: A distribuição de conceitos em diferentes conjuntos de dados de pré -treinamento está fortemente correlacionada (consulte a guia 4 na Seção 5), o que sugere que os rastreios da web produzem distribuições conceituais surpreendentemente semelhantes em diferentes estratégias de curadoria de dados de pré -treinamento, necessitando de esforços explícitos de reequilíbrio [11, 125].

• Desalinhamento de texto de imagem entre conceitos em dados de pré-treinamento: Os conceitos geralmente aparecem em uma modalidade, mas não na outra, o que implica desalinhamento significativo (ver guia 3 na seção 5). Nossos artefatos de dados lançados podem ajudar os esforços de alinhamento de texto de imagem em escala, indicando com precisão os exemplos nos quais as modalidades desalinham. Observe que a tendência log-linear em ambas as modalidades é robusta para esse desalinhamento.

Para fornecer uma referência simples para o desempenho da generalização para modelos multimodais, que controla a frequência conceitual no conjunto de treinamento, introduzimos um novo conjunto de dados de teste de cauda de longa “Deixe abanar!”. Modelos atuais treinados nos dois conjuntos de dados disponíveis abertamente (por exemplo, laion-2b [103]Datacomp-1b [46]) e conjuntos de dados de fonte fechada (por exemplo, OpenIl-wit [91]Webbli [29]) têm quedas significativas no desempenho, fornecendo evidências de que nossas observações também podem ser transferidas para conjuntos de dados de código fechado. Liberemos publicamente todos os nossos artefatos de dados (mais de 300 GB), amortizando o custo de analisar os conjuntos de dados pré-treinos dos modelos de fundação multimodal para obter um entendimento mais centrado nos dados das propriedades dos modelos multimodais no futuro.

Vários trabalhos anteriores [91, 46, 82, 42, 83, 74] investigaram o papel dos dados pré -treinos no afeto do desempenho. Mayilvahanan et al. [79] mostrou que o desempenho do clipe está correlacionado com a semelhança entre os conjuntos de dados de treinamento e teste. Em outros estudos em áreas específicas, como a resposta a perguntas [62] e raciocínio numérico [94] Em grandes modelos de idiomas, a similaridade de alto conjunto de testes de trem não contabilizou totalmente os níveis de desempenho observados [127]. Nossa análise abrangente de vários conjuntos de dados de texto de imagem pré-treinamento aumenta significativamente essa linha de trabalho, por (1) mostrando que a frequência do conceito determina o desempenho zero e (2) identificando a necessidade exponencial de dados de treinamento como uma questão fundamental para os atuais modelos multimodais em larga escala. Concluímos que a chave para as capacidades de generalização de “zero tiro” sob paradigmas de treinamento em larga escala ainda não foi encontrada.

[1] Categorias de classe para tarefas de classificação, objetos nas legendas de texto para tarefas de recuperação e objetos no texto solicita tarefas de geração, consulte a Sec. 2 Para mais detalhes sobre como definimos conceitos.

fonte