Início Tecnologia Os modelos de IA treinados em dados sintéticos ainda seguem as tendências...

Os modelos de IA treinados em dados sintéticos ainda seguem as tendências de frequência conceitual

12
0

 

Resumo e 1. Introdução

2 conceitos em dados de pré -treinamento e frequência de quantificação

3 Comparando a frequência de pré-treinamento e o desempenho “zero tiro” e a configuração experimental 3.1

3.2 Resultado: A frequência de pré-treinamento é preditiva de desempenho “zero tiro”

4 Testes de estresse A tendência de escala de desempenho de frequência conceitual e 4.1 controlando amostras semelhantes em dados pré-treinamento e a jusante

4.2 Generalização de teste para conceito puramente sintético e distribuições de dados

5 idéias adicionais de frequências de conceito de pré -treinamento

6 Testando a cauda: Deixe -a abanar!

7 Trabalho relacionado

8 Conclusões e problemas abertos, reconhecimentos e referências

Parte I.

Apêndice

A. A frequência do conceito é preditiva de desempenho em estratégias de promoção

B. A frequência do conceito é preditiva de desempenho nas métricas de recuperação

C. A frequência conceitual é preditiva de desempenho para modelos T2i

D. A frequência do conceito é preditiva de desempenho entre conceitos apenas de domínios de imagem e texto

E. Detalhes experimentais

F. Por que e como usamos o RAM ++?

G. Detalhes sobre resultados de grau de desalinhamento

Modelos H. T2i: Avaliação

I. Resultados da classificação: deixe -o abanar!

4 Testes de estresse na tendência de escala de desempenho de frequência conceitual

Nesta seção, procuramos isolar o efeito da frequência conceitual no desempenho de tiro zero, controlando um fator influente amplamente conhecido [127, 79]: similaridade na distribuição entre dados de teste pré -treinamento e a jusante. Além disso, pretendemos validar ainda mais nossa hipótese, examinando a relação entre frequência conceitual e desempenho a jusante nos modelos treinados em dados pré -treinamento com distribuições, imagens e legendas conceituadas controladas sinteticamente.

4.1 Controle para amostras semelhantes em dados pré -treinamento e a jusante

Motivação. Trabalhos anteriores sugeriram que a similaridade no nível da amostra entre os conjuntos de dados pré-treinamento e a jusante afeta o desempenho do modelo [62, 79, 127, 94]. Isso deixa em aberto a possibilidade de que nossos resultados de frequência-desempenho sejam simplesmente um artefato desse fator, ou seja, à medida que a frequência do conceito aumenta, é provável que o conjunto de dados pré-treinamento também contenha mais amostras semelhantes aos conjuntos de testes. Assim, investigamos se a frequência do conceito permanece preditiva do desempenho a jusante após o controle da similaridade no nível da amostra.

Configurar. Usamos o laion-200m [10] conjunto de dados para este experimento. Primeiro, verificamos que um modelo CLIP-VIT-B-32 treinado no conjunto de dados Laion-200m (usado para estudar a similaridade da amostra em trabalho anterior [79]) exibe uma tendência log-linear semelhante entre a frequência conceitual e o desempenho de tiro zero. Em seguida, usamos o método próximo de poda de Mayilvahanan et al. [79] eliminar 50 milhões de amostras mais semelhantes aos conjuntos de testes do conjunto de dados pré-treinamento de Laion-200m. Fornecemos detalhes para isso no APPX. E.1. Isso remove as amostras mais semelhantes entre os conjuntos de pré -treinamento e testes. Verificamos que esse procedimento influencia o desempenho do modelo drasticamente no desempenho em nossas tarefas agregadas de classificação e recuperação, respectivamente, replicando os achados de Mayilvahanan et al. [79].

Achada de chave: Frequência conceitual ainda preditiva de desempenho. Repetimos nossa análise em modelos treinados com este conjunto de dados de pré -treinamento controlado com amostras de 150m e relatamos resultados sobre os mesmos conjuntos de dados de classificação e recuperação a jusante na Fig. 4 (à esquerda). Apesar da remoção das amostras mais semelhantes entre os conjuntos de pré-treinamento e testes, ainda observamos consistentemente uma relação log-linear clara entre a frequência pré-treinamento dos conceitos do conjunto de testes e o desempenho de tiro zero.

Conclusão. Essa análise reafirma que, apesar de remover as amostras de pré-treinamento intimamente relacionadas aos conjuntos de testes, a relação log-linear entre a frequência do conceito e o desempenho de tiro zero persiste. Observe que isso ocorre apesar das reduções substanciais no desempenho absoluto, destacando a robustez da frequência conceitual como um indicador de desempenho.

” alt=”” aria-hidden=”true” />Figura 5: A distribuição conceitual dos conjuntos de dados de pré-treinamento é altamente cauda de longa. Mostramos a distribuição de frequências de pré-treinamento de todos os conceitos agregados em todos os nossos conjuntos de dados de classificação a jusante. Nos três conjuntos de dados pré-treinamento, observamos caudas muito pesadas. Normalizamos as frequências do conceito e removemos conceitos com 0 contagens para melhorar a legibilidade.Figura 5: A distribuição conceitual dos conjuntos de dados de pré-treinamento é altamente cauda de longa. Mostramos a distribuição de frequências de pré-treinamento de todos os conceitos agregados em todos os nossos conjuntos de dados de classificação a jusante. Nos três conjuntos de dados pré-treinamento, observamos caudas muito pesadas. Normalizamos as frequências do conceito e removemos conceitos com 0 contagens para melhorar a legibilidade.

4.2 Generalização de teste para conceito puramente sintético e distribuições de dados

Motivação. A amostragem entre os dados do mundo real pode não resultar em diferenças significativas na distribuição de conceitos, como mostraremos posteriormente na Sec. 5. Portanto, repetimos nossa análise em um conjunto de dados sintéticos projetado com uma distribuição conceitual explicitamente diferente [51]. Essa avaliação visa entender se a frequência do conceito de pré -treinamento continua sendo um preditor significativo de desempenho dentro de uma distribuição de conceito sintético, generalizando mesmo em modelos pré -tenhados em imagens e legendas totalmente sintéticas.

Configurar. O conjunto de dados Synthci-30m [51] Introduz uma nova distribuição conceitual, gerando 30 milhões de pares de texto sintético. Utilizando os dados e modelos disponíveis publicamente dessa referência, exploramos a relação entre a frequência do conceito e o desempenho do modelo neste regime de dados sintéticos.

Achada de chave: A frequência do conceito ainda é preditiva de desempenho. Relatamos resultados de modelos treinados com seu conjunto de dados controlado na Fig. 4 (à direita). Ainda observamos consistentemente uma relação log-linear clara entre a frequência do conceito e o desempenho de tiro zero.

Conclusão. Essa consistência destaca que a frequência do conceito é um indicador robusto do desempenho do modelo, estendendo -se até para conjuntos de dados totalmente construídos sinteticamente e distribuições de conceito de pré -treinamento.

Autores:

(1) Vishaal Udandarao, Tubingen AI Center, Universidade de Tubingen, Universidade de Cambridge e contribuição igual;

(2) Ameya Prabhu, Tubingen AI Center, Universidade de Tubingen, Universidade de Oxford e Igualista;

(3) Adhiraj Ghosh, Tubingen AI Center, Universidade de Tubingen;

(4) Yash Sharma, Tubingen AI Center, Universidade de Tubingen;

(5) Philip HS Torr, Universidade de Oxford;

(6) Adel Bibi, Universidade de Oxford;

(7) Samuel Albanie, Universidade de Cambridge e Aconselhamento Igual, Ordem decidida por um flip de moedas;

(8) Matthias Bethge, Tubingen AI Center, Universidade de Tubingen e Aconselhamento Igual, Ordem decidida por uma moeda.


fonte