Início Tecnologia Análise de perda de entropia cruzada em redes de transformadores

Análise de perda de entropia cruzada em redes de transformadores

1
0

 

Resumo e 1 Introdução

2 trabalhos relacionados

3 Modelo e 3.1 Memórias Associativas

3.2 blocos de transformadores

4 Uma nova função energética

4.1 A estrutura em camadas

5 Perda de entropia cruzada

6 Resultados empíricos e 6.1 Avaliação empírica do raio

6.2 Treinamento GPT-2

6.3 Treinando transformadores de baunilha

7 Conclusão e Agradecimentos

Apêndice A. Tabelas diferidas

Apêndice B. Algumas propriedades das funções energéticas

Apêndice C. As provas diferidas da Seção 5

Apêndice D. Detalhes do transformador: Usando o GPT-2 como exemplo

Referências

5 Perda de entropia cruzada

Agora passamos a analisar a perda de redes de transformadores. A perda de entropia cruzada, que mede a diferença entre as probabilidades previstas e os rótulos reais, é comumente usada para o treinamento de modelos de transformadores. O mecanismo de atenção inclui uma operação softmax que gera uma distribuição de probabilidade p ∈ ∆n. Na prática, a saída final do softmax é então alimentada em uma camada específica da tarefa para tarefas a jusante, como previsões e classificações. Assim, comparamos a última saída Softmax dos blocos de transformadores com a distribuição de destino.

” alt=”” aria-hidden=”true” />

Temos o seguinte resultado em relação à perda de entropia cruzada.

Observação 2 A entropia cruzada pode ser escrita como

Quando o modelo é gravemente super parametricado, a função de energia pode muito bem se aproximar da energia da distribuição da amostra. Nesse caso, a entropia cruzada mínima é igual à entropia das amostras de treinamento.

Em seguida, examinamos mais de perto a função de partição da camada. Nós temos

Na Tabela 2 no Apêndice A, comparamos a perda de entropia cruzada relatada de vários modelos baseados em transformadores na literatura. Geralmente, é relatada uma família de modelos que varia em vários tamanhos e selecionamos os maiores. Observamos que a perda de entropia cruzada semelhante é alcançada em uma ampla gama de formas arquitetônicas (incluindo profundidade, largura, cabeças de atenção, dimensões FF e comprimentos de contexto). No entanto, todas as perdas satisfazem l> 1.

Observação 3 Observamos que alguns modelos adicionam termos de regularização auxiliar, como a perda Z (Chowdhery et al., 2023; Yang et al., 2023) durante o treinamento. Nesses casos, as leis de escala devem levar em consideração os termos adicionais. Além disso, modificações nos blocos de transformadores, como normalização adicional da camada, podem contribuir para o limite inferior da entropia cruzada.


fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui