Início Tecnologia Previsão de vários toques: arquitetura para treinamento de LLM com eficiência de...

Previsão de vários toques: arquitetura para treinamento de LLM com eficiência de memória

12
0

Resumo e 1. Introdução

2. Método

3. Experiências em dados reais

3.1. Escala de benefícios com tamanho do modelo e 3.2. Inferência mais rápida

3.3. Aprendendo padrões globais com previsão de vários bytes e 3.4. Procurando o splendid n

3.5. Treinamento para várias épocas e 3,6. Preditores multitonotes da Finetuning

3.7. Previsão com vários toques em linguagem pure

4. Ablações sobre dados sintéticos e 4.1. Capacidade de indução

4.2. Raciocínio algorítmico

5. Por que funciona? Alguma especulação e 5.1. LookaHead reforça pontos de escolha

5.2. Argumento teórico da informação

6. Trabalho relacionado

7. Conclusão, declaração de impacto, impacto ambiental, reconhecimentos e referências

A. Resultados adicionais sobre decodificação auto-especulativa

B. Arquiteturas alternativas

C. velocidades de treinamento

D. Finetuning

E. Resultados adicionais sobre o comportamento de escala do modelo

F. Detalhes sobre o codecontests Finetuning

G. Resultados adicionais em benchmarks de linguagem pure

H. Resultados adicionais sobre resumo abstrato de texto

I. Resultados adicionais sobre o raciocínio matemático em linguagem pure

J. Resultados adicionais sobre aprendizado de indução

Okay. Resultados adicionais sobre o raciocínio algorítmico

L. Intuições adicionais na previsão de vários toques

M. Treinando Hyperparameters

2. Método

A modelagem de idiomas padrão aprende sobre um grande texto de texto X1 ,. . . XT implementando uma tarefa de previsão da próxima token. Formalmente, o objetivo de aprendizado é minimizar a perda de entropia cruzada

Neste trabalho, generalizamos o acima, implementando uma tarefa de previsão de vários toques, onde, em cada posição do corpus de treinamento, o modelo é instruído a prever n tokens futuros ao mesmo tempo. Isso se traduz na perda de entropia cruzada

Figura 2: Ordem da frente/para trás em um modelo de previsão N-Token com n = 2 cabeças. Ao executar a frente/para trás nas cabeças em ordem seqüencial, evitamos materializar todos os gradientes da camada sem embalagem na memória simultaneamente e reduzimos o uso de memória de GPU de pico.Figura 2: Ordem da frente/para trás em um modelo de previsão N-Token com n = 2 cabeças. Ao executar a frente/para trás nas cabeças em ordem seqüencial, evitamos materializar todos os gradientes da camada sem embalagem na memória simultaneamente e reduzimos o uso de memória de GPU de pico.

Autores:

(1) Fabian Gloeckle, justo na Meta, Cermics Ecole des Ponts Paristech e contribuiu igualmente;

(2) Badr Youbi Idrissifair na Meta, Lisn Université Paris-Saclay e contribuiu igualmente;

(3) Baptiste Rozière, Truthful em Meta;

(4) David Lopez-Paz, justo na Meta e seu último autor;

(5) Gabriel Synnaeve, Truthful em Meta e seu último autor.

fonte