Início Tecnologia Análise de perda de entropia cruzada em redes de transformadores

Tecnologia

Análise de perda de entropia cruzada em redes de transformadores

Por

Bouville Fabienne

20 Junho 2025

Tabela de links

Resumo e 1 Introdução

2 trabalhos relacionados

3 Modelo e 3.1 Memórias Associativas

3.2 blocos de transformadores

4 Uma nova função energética

4.1 A estrutura em camadas

5 Perda de entropia cruzada

6 Resultados empíricos e 6.1 Avaliação empírica do raio

6.2 Treinamento GPT-2

6.3 Treinando transformadores de baunilha

7 Conclusão e Agradecimentos

Apêndice A. Tabelas diferidas

Apêndice B. Algumas propriedades das funções energéticas

Apêndice C. As provas diferidas da Seção 5

Apêndice D. Detalhes do transformador: Usando o GPT-2 como exemplo

Referências

5 Perda de entropia cruzada

Agora passamos a analisar a perda de redes de transformadores. A perda de entropia cruzada, que mede a diferença entre as probabilidades previstas e os rótulos reais, é comumente usada para o treinamento de modelos de transformadores. O mecanismo de atenção inclui uma operação softmax que gera uma distribuição de probabilidade p ∈ ∆n. Na prática, a saída final do softmax é então alimentada em uma camada específica da tarefa para tarefas a jusante, como previsões e classificações. Assim, comparamos a última saída Softmax dos blocos de transformadores com a distribuição de destino.

” alt=”” aria-hidden=”true” />

Temos o seguinte resultado em relação à perda de entropia cruzada.

Observação 2 A entropia cruzada pode ser escrita como

Quando o modelo é gravemente super parametricado, a função de energia pode muito bem se aproximar da energia da distribuição da amostra. Nesse caso, a entropia cruzada mínima é igual à entropia das amostras de treinamento.

Em seguida, examinamos mais de perto a função de partição da camada. Nós temos

Na Tabela 2 no Apêndice A, comparamos a perda de entropia cruzada relatada de vários modelos baseados em transformadores na literatura. Geralmente, é relatada uma família de modelos que varia em vários tamanhos e selecionamos os maiores. Observamos que a perda de entropia cruzada semelhante é alcançada em uma ampla gama de formas arquitetônicas (incluindo profundidade, largura, cabeças de atenção, dimensões FF e comprimentos de contexto). No entanto, todas as perdas satisfazem l> 1.

Observação 3 Observamos que alguns modelos adicionam termos de regularização auxiliar, como a perda Z (Chowdhery et al., 2023; Yang et al., 2023) durante o treinamento. Nesses casos, as leis de escala devem levar em consideração os termos adicionais. Além disso, modificações nos blocos de transformadores, como normalização adicional da camada, podem contribuir para o limite inferior da entropia cruzada.

fonte

Análise de perda de entropia cruzada em redes de transformadores

Tabela de links

5 Perda de entropia cruzada

DEIXE UMA RESPOSTA Cancelar resposta

Recente

Lizzo admite que tentou ozempic em meio à transformação da perda...

Conflito de Israel-Irã: Principais EUA, as companhias aéreas europeias suspendem voos...

Andy Jassy diz que a IA reduzirá a força de trabalho...

Danny Boyle diz que não poderia fazer ‘Slumdog Millionaire’ hoje, e...

Tesla Inks First Deal a construir a maior usina de bateria...

Este minúsculo Mazda se encaixava em uma mala e parecia algo...

Prédio de ataques de mísseis iranianos no Haifa de Israel

O aplicativo Indigo do Projeto Free da Adobe transforma o iPhone...

Todo novo candidato ao diretor de James Bond tem uma coisa...

O colapso dos sistemas de água de Gaza pode causar ‘seca...