Início Tecnologia Em metrics e avisos, conceitos frequentes superam o aprendizado de tiro zero

Em metrics e avisos, conceitos frequentes superam o aprendizado de tiro zero

5
0

 

Resumo e 1. Introdução

2 conceitos em dados de pré -treinamento e frequência de quantificação

3 Comparando a frequência de pré-treinamento e o desempenho “zero tiro” e a configuração experimental 3.1

3.2 Resultado: A frequência de pré-treinamento é preditiva de desempenho “zero tiro”

4 Testes de estresse A tendência de escala de desempenho de frequência conceitual e 4.1 controlando amostras semelhantes em dados pré-treinamento e a jusante

4.2 Generalização de teste para conceito puramente sintético e distribuições de dados

5 idéias adicionais de frequências de conceito de pré -treinamento

6 Testando a cauda: Deixe -a abanar!

7 Trabalho relacionado

8 Conclusões e problemas abertos, reconhecimentos e referências

Parte I.

Apêndice

A. A frequência do conceito é preditiva de desempenho em estratégias de promoção

B. A frequência do conceito é preditiva de desempenho nas métricas de recuperação

C. A frequência conceitual é preditiva de desempenho para modelos T2i

D. A frequência do conceito é preditiva de desempenho entre conceitos apenas de domínios de imagem e texto

E. Detalhes experimentais

F. Por que e como usamos o RAM ++?

G. Detalhes sobre resultados de grau de desalinhamento

Modelos H. T2i: Avaliação

I. Resultados da classificação: deixe -o abanar!

Uma frequência conceitual é preditiva de desempenho em estratégias de promoção

Estendemos os resultados da classificação de tiro zero da Fig. 2 na Fig. 8 com duas estratégias diferentes de promoção: os resultados no artigo principal usavam o {className} apenas como os prompts, aqui mostramos ambos (1) “Uma foto de um {ClassName}” solicitando e (2) 80 Prompt, conforme usado por Radford et al. [91]. Nós observamos isso A forte tendência log-linear entre a frequência conceitual e o desempenho de tiro zero é consistente em diferentes estratégias de promoção.

” alt=”” aria-hidden=”true” />Figura 8: Relações log-lineares entre a frequência do conceito e o desempenho do clipe zero. Across all tested architectures (RN50, RN101, ViT-B-32, ViT-B-16, ViT-L-14) and pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M), we observe a consistent linear relationship between CLIP's zero-shot classification accuracy on a concept and the log-scaled concept pretraining frequency. Essa tendência se mantém para o estilo “Uma foto de um {className}”, estimulando o estilo e 80 conjuntos de promtidos [91]. ** indica que o resultado é significativo (p <0,05 com um teste t bicaudal.) E, portanto, mostramos a correlação de Pearson (ρ) também.Figura 8: Relações log-lineares entre a frequência do conceito e o desempenho do clipe zero. Across all tested architectures (RN50, RN101, ViT-B-32, ViT-B-16, ViT-L-14) and pretraining datasets (CC-3M, CC-12M, YFCC-15M, LAION-400M), we observe a consistent linear relationship between CLIP's zero-shot classification accuracy on a concept and the log-scaled concept pretraining frequency. Essa tendência se mantém para o estilo “Uma foto de um {className}”, estimulando o estilo e 80 conjuntos de promtidos [91]. ** indica que o resultado é significativo (p <0,05 com um teste t bicaudal.) E, portanto, mostramos a correlação de Pearson (ρ) também.

B A frequência do conceito é preditiva de desempenho nas métricas de recuperação

Complementamos a Fig. 2 no papel principal, onde mostramos resultados com o RECORDE TEXT-T-NAGE (I2T)@10 METRIC. Nas Figs. 9 e 10, apresentamos resultados para as experiências de recuperação em todas as seis métricas: i2t-recall@1, i2t-recall@5, i2t-recall@10, t2i-recall@1, t2i-recall@5, t2i-recall@10. Nós observamos isso A forte tendência log-linear entre a frequência conceitual e o desempenho zero-tiro é robusta em diferentes métricas de recuperação.

Figura 9: Relações log-lineares entre a frequência do conceito e o desempenho da recuperação do clipe I2T. Em todas as arquiteturas testadas (RN50, RN101, VIT-B-32, Vit-B-16, Vit-L-14) e pré-treinamento (CC-3M, CC-12M, YFCC-15M, LAION-400M), observamos uma relação linear consistente na reposição do clipe e da retro-resposição (medida usando a imagem, usando a imagem, com a imagem, com a imagem, a figura de retroções e a medição da manutenção e a medição do meio de retroções), com a medição do meio de retroções e o meio de retroções do clipe (medidas usando a manutenção do meio de retro (medidas usando a manutenção e o meio de retroções), com a medição do conceito de megante e a medição do meio de retroções do clipe (medidas usando a imagem do meio de megante e o meio de meio de meio-400m). ** indica que o resultado é significativo (p <0,05 com um teste t bicaudal.) E, portanto, mostramos a correlação de Pearson (ρ) também.Figura 9: Relações log-lineares entre a frequência do conceito e o desempenho da recuperação do clipe I2T. Em todas as arquiteturas testadas (RN50, RN101, VIT-B-32, Vit-B-16, Vit-L-14) e pré-treinamento (CC-3M, CC-12M, YFCC-15M, LAION-400M), observamos uma relação linear consistente na reposição do clipe e da retro-resposição (medida usando a imagem, usando a imagem, com a imagem, com a imagem, a figura de retroções e a medição da manutenção e a medição do meio de retroções), com a medição do meio de retroções e o meio de retroções do clipe (medidas usando a manutenção do meio de retro (medidas usando a manutenção e o meio de retroções), com a medição do conceito de megante e a medição do meio de retroções do clipe (medidas usando a imagem do meio de megante e o meio de meio de meio-400m). ** indica que o resultado é significativo (p <0,05 com um teste t bicaudal.) E, portanto, mostramos a correlação de Pearson (ρ) também.

Figura 10: Relações log-lineares entre a frequência do conceito e o desempenho da recuperação do clipe T2I. Em todas as arquiteturas testadas (RN50, RN101, Vit-B-32, Vit-B-16, Vit-L-14) e pré-treinamento (CC-3M, CC-12M, YFCC-15M, LAION-400M), observamos uma relação linear consistente sobre o desempenho do clipe e o meio de meta de texto até o texto, o meio de texto, o meio de texto, o meio de meta de texto e o meio de texto, o meio de texto, o meio de meta de retroções do clipe e o meio de texto até o texto, usando o texto do meio de texto, o meio de meta de texto e o meio de texto e o meio de meta-fita e o meio de texto e o meio de meta de texto e o meio de texto e o meio de texto do mecanismo de meta-400m). ** indica que o resultado é significativo (p <0,05 com um teste t bicaudal.) E, portanto, mostramos a correlação de Pearson (ρ) também.Figura 10: Relações log-lineares entre a frequência do conceito e o desempenho da recuperação do clipe T2I. Em todas as arquiteturas testadas (RN50, RN101, Vit-B-32, Vit-B-16, Vit-L-14) e pré-treinamento (CC-3M, CC-12M, YFCC-15M, LAION-400M), observamos uma relação linear consistente sobre o desempenho do clipe e o meio de meta de texto até o texto, o meio de texto, o meio de texto, o meio de meta de texto e o meio de texto, o meio de texto, o meio de meta de retroções do clipe e o meio de texto até o texto, usando o texto do meio de texto, o meio de meta de texto e o meio de texto e o meio de meta-fita e o meio de texto e o meio de meta de texto e o meio de texto e o meio de texto do mecanismo de meta-400m). ** indica que o resultado é significativo (p <0,05 com um teste t bicaudal.) E, portanto, mostramos a correlação de Pearson (ρ) também.

Autores:

(1) Vishaal Udandarao, Tubingen AI Center, Universidade de Tubingen, Universidade de Cambridge e contribuição igual;

(2) Ameya Prabhu, Tubingen AI Center, Universidade de Tubingen, Universidade de Oxford e Igualista;

(3) Adhiraj Ghosh, Tubingen AI Center, Universidade de Tubingen;

(4) Yash Sharma, Tubingen AI Center, Universidade de Tubingen;

(5) Philip HS Torr, Universidade de Oxford;

(6) Adel Bibi, Universidade de Oxford;

(7) Samuel Albanie, Universidade de Cambridge e Aconselhamento Igual, Ordem decidida por um flip de moedas;

(8) Matthias Bethge, Tubingen AI Center, Universidade de Tubingen e Aconselhamento Igual, Ordem decidida por uma moeda.


fonte