Tabela de links
Resumo e 1. Introdução
2 conceitos em dados de pré -treinamento e frequência de quantificação
3 Comparando a frequência de pré-treinamento e o desempenho “zero tiro” e a configuração experimental 3.1
3.2 Resultado: A frequência de pré-treinamento é preditiva de desempenho “zero tiro”
4 Testes de estresse A tendência de escala de desempenho de frequência conceitual e 4.1 controlando amostras semelhantes em dados pré-treinamento e a jusante
4.2 Generalização de teste para conceito puramente sintético e distribuições de dados
5 idéias adicionais de frequências de conceito de pré -treinamento
6 Testando a cauda: Deixe -a abanar!
7 Trabalho relacionado
8 Conclusões e problemas abertos, reconhecimentos e referências
Parte I.
Apêndice
A. A frequência do conceito é preditiva de desempenho em estratégias de promoção
B. A frequência do conceito é preditiva de desempenho nas métricas de recuperação
C. A frequência conceitual é preditiva de desempenho para modelos T2i
D. A frequência do conceito é preditiva de desempenho entre conceitos apenas de domínios de imagem e texto
E. Detalhes experimentais
F. Por que e como usamos o RAM ++?
G. Detalhes sobre resultados de grau de desalinhamento
Modelos H. T2i: Avaliação
I. Resultados da classificação: deixe -o abanar!
2 conceitos em dados de pré -treinamento e frequência de quantificação
Nesta seção, descrevemos nossa metodologia para obter frequências de conceitos em conjuntos de dados pré -treinamento. Primeiro, definimos nossos conceitos de interesse e depois descrevemos algoritmos para extrair suas frequências de imagens
e legendas de texto de conjuntos de dados pré -treinos. Finalmente, discutimos como agregá-los para calcular frequências de conceito de texto de imagem de imagem correspondentes. Para uma visão geral esquemática de nossos métodos, consulte a Fig. 1.
Definindo conceitos. Definimos “conceitos” como os objetos específicos ou categorias de classe que procuramos analisar nos conjuntos de dados pré -treinamento. Para tarefas de classificação de tiro zero, esses conceitos são os nomes de classes, como as 1.000 classes no imagenet [35] (por exemplo, “Tench”, “Goldfish”, “Stingray”). Para tarefas de recuperação e geração de imagens de texto de imagem, os conceitos são identificados como todos os substantivos presentes nas legendas do conjunto de testes ou avisos de geração, respectivamente. Por exemplo, na legenda, “um homem está usando um chapéu”, extraímos “homem” e “chapéu” como conceitos relevantes. Além disso, filtramos substantivos que estão presentes em menos de cinco amostras de avaliação a jusante para remover conceitos ambíguos ou irrelevantes. Em todos os nossos experimentos, reunimos uma lista de 4, 029 conceitos provenientes de 17 conjuntos de dados de classificação, 2 recuperação e 8 de geração de imagens a jusante (consulte a guia 1 para obter detalhes).
Frequência conceitual das legendas de texto. Para permitir pesquisas de conceitos eficientes, pré-indexamos todas as legendas dos conjuntos de dados pré-treinamento, ou seja, construímos um mapeamento de conceitos para legendas. Primeiro, usamos a marcação de parte de fala para isolar substantivos comuns e adequados e, posteriormente, lematizá-los para padronizar os formulários de palavras [65] com spacy [58] . Esses substantivos lematizados são então catalogados em dicionários de Unigram invertidos, com cada substantivo sendo a chave e todos os índices nas amostras de dados pré -trepingantes que contêm esse substantivo sendo seus valores. Para determinar a frequência de um conceito, particularmente aqueles compostos por várias palavras, examinamos os unigramas individuais do conceito dentro desses dicionários. Para expressões de várias palavras, ao cruzar as listas de índices de amostra correspondentes a cada unigrama, identificamos as amostras que contêm todas as partes do conceito. A frequência do conceito nas legendas do texto é a contagem desses índices de amostra que se cruzam. Nosso algoritmo de estimativa de frequência permite a pesquisa escalável de O (1) em relação ao número de legendas para qualquer conceito de conceito nas legendas de dados pré -treinamento.
Frequência conceitual de imagens. Ao contrário das legendas de texto, não temos um vocabulário finito para pré-indexamento imagens de pré-treinamento e, portanto, não podemos executar a pesquisa de conceito O (1). Em vez disso, coletamos todos os 4, 029 conceitos a jusante e verificamos sua presença em imagens usando um modelo de marcação de imagem pré -treinado. Testamos vários detectores de objetos abertos-vocabulários, modelos de correspondência de texto de imagem e modelos de várias marcas. Descobrimos que Ram ++ [59]-Um modelo de marcação de set-set-aberto que identifica imagens com base em uma lista predefinida de conceitos de maneira multi-rótulo-apresenta o melhor. Essa abordagem gera uma lista de imagens pré -treinos, cada uma marcada se os conceitos a jusante estão presentes ou não, dos quais podemos calcular frequências de conceito. Fornecemos exemplos qualitativos, juntamente com as ablações de escolha de design no APPX. F.
Frequências de conceito correspondentes ao texto de imagem. Finalmente, combinamos as frequências obtidas de pesquisas de texto e imagem para calcular frequências de texto de imagem correspondentes. Isso envolve identificar pré -treinamento
Amostras em que a imagem e sua legenda associadas correspondem ao conceito. Ao cruzar as listas de nossas pesquisas de imagem e texto, determinamos a contagem de amostras alinhadas em ambas as modalidades, oferecendo uma visão abrangente da representação conceitual em todo o conjunto de dados. Observamos que esta etapa é necessária, pois observamos desalinhamento significativo de texto de imagem entre conceitos nos conjuntos de dados pré-treping (ver guia 3), portanto, as legendas podem não refletir o que está presente na imagem e vice-versa. Esse comportamento também foi mencionado em trabalhos anteriores que investigam estratégias de curadoria de dados de pré -treinamento [76, 75, 124, 83]. Fornecemos uma análise mais detalhada sobre o desalinhamento de texto da imagem na seção 5.
Autores:
(1) Vishaal Udandarao, Tubingen AI Center, Universidade de Tubingen, Universidade de Cambridge e contribuição igual;
(2) Ameya Prabhu, Tubingen AI Center, Universidade de Tubingen, Universidade de Oxford e Igualista;
(3) Adhiraj Ghosh, Tubingen AI Center, Universidade de Tubingen;
(4) Yash Sharma, Tubingen AI Center, Universidade de Tubingen;
(5) Philip HS Torr, Universidade de Oxford;
(6) Adel Bibi, Universidade de Oxford;
(7) Samuel Albanie, Universidade de Cambridge e Aconselhamento Igual, Ordem decidida por um flip de moedas;
(8) Matthias Bethge, Tubingen AI Center, Universidade de Tubingen e Aconselhamento Igual, Ordem decidida por uma moeda.