Início Tecnologia A otimização direta de Nash supera os modelos maiores com melhores dados

A otimização direta de Nash supera os modelos maiores com melhores dados

29
0

Autores:

(1) Corby Rosset, pesquisa e correspondência da Microsoft para [email protected];

(2) Ching-An Cheng, Microsoft Analysis;

(3) Arindam Mitra, Microsoft Analysis;

(4) Michael Santacroce, Microsoft Analysis;

(5) Ahmed Awadallah, pesquisa e correspondência da Microsoft para [email protected];

(6) Tengyang xie, pesquisa e correspondência da Microsoft para [email protected].

Resumo e 1 Introdução

2 preliminares

2.1 RLHF com base em modelos de recompensa

2.2 RLHF com preferências gerais

3 Otimização direta de Nash e 3,1 derivação do algoritmo 1

3.2 Análise teórica

4 algoritmo prático-auto-aperfeiçoamento iterativo

5 experimentos e 5.1 configuração experimental

5.2 Resultados e análise

6 Trabalho relacionado

7 Conclusão e referências

Apêndice

Uma extensão para preferências regularizadas

B Provas detalhadas

C Detalhes experimentais adicionais

5.2 Resultados e análise

Executamos várias experiências frente a frente que controlam hiperparâmetros e dados de entrada. Muitas vezes nos referimos à política treinada como o “aluno” e o GPT-4 como um “professor”; O GPT-4 também é usado como anotador quando solicitado.

Linhas de base SFT A primeira linha de base é a própria Orca-2.5, que é um modelo pré-terenciado Mistralai/Mistral-7b-V0.1, ajustado em uma nova coleção de dados ORCA-2 (Mitra et al., 2023). Este modelo foi fino para três épocas e as pontuações mostradas no topo da Tabela 4. Todas as outras experiências deste estudo são inicializadas com a época 1 da ORCA-2.5. Esta é a linha horizontal sólida na Figura 2.

A segunda linha de base é o treinamento de Orca-2.5 em direção aos pontos positivos no Ultrafeedback (e mascarando a perda nos avisos de entrada). Se o positivo unique nesse conjunto de dados não period do GPT-4-Turbo, substituímos-o por um que é. Essa é a linha vermelha na Figura 2. É claro que mesmo os métodos de treinamento contrastivos offline são mais benéficos que a SFT adicional, mostrando que a diferença entre a saída positiva e negativa fornece um sinal de treinamento mais valioso do que o positivo em isolamento.

Grande filtragem de margem de pares de treinamento: Executamos um experimento simples de DPO offline para uma época em dados de ultrafazer. No controle, treinamos em todos os pares de preferência de 63k no conjunto de dados originais, enquanto no tratamento filtramos os pares de 42k que atendiam a um grande requisito de margem que aplicava que as pontuações do positivo excederam a do negativo em pelo menos 1,0 (fora de 10) de acordo com o anotador GPT-4-Turbo. Tudo o mais period igual. Embora o tratamento tenha sido treinado para menos etapas em menos dados, ele alcançou uma taxa de vitória do Alpacaeeval 2.0 de 11,60 vs 9,60 para o controle, mostrando que menos pares de preferência de qualidade mais alta são melhores que uma quantidade mais alta de pares barulhentos (não mostrados nas tabelas).

Na política é melhor do que fora da política Uma das questões críticas deste estudo, se deve provar saídas “na política” do aluno atual para usar em pares de treinamento ou se saídas “fora da política” coletadas de outros modelos diferentes

Tabela 3: Resultados nas tarefas de raciocínio da tabela de líderes abertas, que não esperamos diminuir.Tabela 3: Resultados nas tarefas de raciocínio da tabela de líderes abertas, que não esperamos diminuir.

do que o aluno será suficiente. Executamos 4 épocas de DPO offline no Ultrafeedback (filtrado para margem grande) e, como mostrado na Tabela 1, os métodos na política, especialmente o DNO, superam o DPO fora da política, mesmo quando treinados para 4 épocas, enquanto os modelos na política receberam apenas três iterações. Lembre-se de que cada iteração de treinamento na política em lote vê apenas um terço dos dados de entrada ultra-beneficiária, enquanto uma época do DPO offline vê todo o conjunto de dados.

Anotadores de maior qualidade Em nosso estudo, usamos o GPT-4-Turbo para fornecer as anotações para pares de preferências. No entanto, o modelo de linguagem auto-recompensa usa o modelo LLAMA-2-70B (Touvron et al., 2023) treinado para também dar suggestions como o anotador, que em seu estudo começa com uma taxa de concordância de 65% com as preferências marcadas com humano melhorando para 80% na última iteração (Yuan et al., 2024). Embora não tenha sido relatado quão bem as anotações do GPT-4-Turbo concordam com seus rótulos humanos mantidos, acreditamos que ter um anotador de alta qualidade para começar levará a políticas de maior qualidade. Como ambos os nossos estudos usam dados de ultrafazer e nosso immediate de anotação é baseado em seu immediate de anotação, acreditamos que há uma comparação válida.

Observamos o DNO inicializado com um modelo de base 7B supera o modelo de auto-recompensa de parâmetros de 70B sobre o mesmo número de iterações de treinamento (taxa de vitória de 24,97 vs 20,44 em Alpacaeeval 2.0 e 7,46 mt-bancada vs 7,25), pelo menos em parte devido às principais notas de preferência de qualidade. Veja a banda azul escura versus a linha cinza na Figura 2 e a linha correspondente na Tabela 1. No entanto, diferentemente do LM auto-recompensa, vimos um pequeno ganho em vez de uma queda de referência de raciocínio como o Problem ARC (Clark et al., 2018) e Hellaswag (Zellers et al., 2019). É verdade que a avaliação do Openllm prevê a resposta com o máximo de logit correspondente a uma das opções de múltipla escolha, que não é congruente com a forma como essas técnicas são treinadas.

Construção de pares de treinamento Uma das questões de implementação mais críticas deste estudo é Como construir pares de treinamento que ajudam a política do aluno a exceder um professor forte Como GPT-4-Turbo. Uma abordagem, a Finetuning de auto-reprodução (spin), take away a etapa de anotação de preferência e atribui automaticamente a saída do professor para ser positiva, e todas as amostras de estudantes são negativas (Chen et al., 2024). Encontramos em nossa reimplementação de rotação que isso é prejudicial, presumivelmente porque essa atribuição automática pode levar a pares de treinamento barulhentos nos casos em que o aluno pode realmente ser preferido. A taxa de vitória resultante de rotação é de apenas 16,13 após três épocas de treinamento iterativo em comparação com 24,97 para DNO, como mostrado na Tabela 1, sendo tudo igual. Resultados semelhantes são mantidos no Openllm resulta na Tabela 3.

Em um segundo experimento, que denotamos o DNO restritivo, anotamos todos os pares de preferências com GPT-4-Turbo, como de costume, mas apenas admitimos pares de treinamento em que a produção do professor é a preferida. A diferença entre DNO e DNO restritiva é ilustrada na Tabela 2, onde são criados 0 pares de Pupil-Vs-Instructor e Pupil-Vs-Pupil. O mesmo se aplica ao spin, mas o spin admitiria uma quantidade maior de exemplos barulhentos de professores-Vs-estudantes, mesmo quando são desanimados: a Tabela 2 mostra que, após a iteração 2 do DNO restritivo, apenas 9,9 mil instâncias existem do professor para o aluno, onde o spin teria automaticamente criado cerca de 100k (5 amostras × 20k.

Embora o DNO restritivo seja um pouco melhor (19,21 com taxa de vitória) do que a rotação, ele ainda não dá ao aluno an opportunity de comparar seu comportamento a um professor poderoso. A ausência desse sinal é uma grande supervisão, uma vez que a última fila da Tabela 2 mostra que, pelo ITER 3, mais de 64% dos dados de treinamento do DNO (32k pares) são casos em que o aluno é de fato preferido sobre o professor, um número que aumenta com a iteração. Concluímos que é imperativo “Permita que o aluno se torne o professor” ou seja, aprenda com comparações em que seus próprios resultados são preferidos a um professor mais poderoso.

Um fenômeno curioso na Tabela 2 é que, embora as saídas do professor sejam fixadas com antecedência, o anotador fornece pontuações ligeiramente mais baixas ao professor à medida que o aluno melhorar; Não temos certeza se este é um artefato inócuo de preferência

Tabela 4: O DNO-More-Data é treinado em 10x mais dados de instrução que o DNO. Ainda é inicializado com a época 1 da Orca-2.5 SFT; portanto, o delta que ele fornece na taxa de vitória do Alpacaeeval 2.0 é 27,39 absoluto (22.29 controlado por comprimento)Tabela 4: O DNO-More-Data é treinado em 10x mais dados de instrução que o DNO. Ainda é inicializado com a época 1 da Orca-2.5 SFT; portanto, o delta que ele fornece na taxa de vitória do Alpacaeeval 2.0 é 27,39 absoluto (22.29 controlado por comprimento)

anotações, ou sintomáticas de um problema mais profundo. Além disso, a quantidade whole de novos pares de treinamento de “grande margem” (não contando os amostrados de iterações anteriores) no DNO tendem a diminuir à medida que a política melhora entre as iterações, mas não temos dados suficientes para quantificar como isso se relaciona com uma mudança de qualidade.

LookAhead para iterações futuras Como curiosidade, experimentamos se um modelo poderia se beneficiar do conhecimento de quais pares de treinamento gerariam se pudesse olhar para o futuro. Testamos isso executando três presas de DNO, acumulando todos os pares de preferências nas iterações, combinando e arrastando-as e, em seguida, reiniciando o treinamento do modelo inicial. Em essência, isso transforma o DNO em lote-online em um algoritmo de aprendizado off-line que indicamos como DNO-LOKEAHEAD. Treinamos uma época nos três dados de preferência das três iterações. Deteriorou-se mais do que esperávamos na taxa de vitória do Alpacaeeval 2.0 (24,97 a 18,18), no entanto, ainda mais surpreendentemente, os números do banco MT melhoraram significativamente (7,48 a 7,70). Embora as razões para a correlação relativamente baixa entre o banco MT e o AlpacaeEval 2.0 não sejam totalmente claras, é importante considerar a disparidade no tamanho dos conjuntos de dados. Dado que o banco de MT consiste em apenas 80 exemplos, enquanto o Alpacaeeval 2.0 contém mais 10x, conjectamos que a significância e confiabilidade estatística dos achados do Alpacaeeval 2.0 são considerados com maior confiança.

DNO escalas com mais dados: Uma das razões pelas quais dividimos o ultra-benefício em três partições não sobrepostas é evitar o excesso de ajuste. Outra estratégia para evitar o excesso de ajuste é coletar mais dados, por isso aumentamos um fator de 10 dados de instrução com base em conjuntos de dados disponíveis ao público. Dividimos uma grande mistura de conjuntos de dados em seis partições não sobrepostas de aproximadamente 100 mil entradas cada (e inferência GPT-4-Turbo em todas as entradas) e mostramos que o DNO-Extra-Knowledge escala bem neste regime expandido (consulte a linha roxa na Figura 2 e a última linha da Tabela 4.

Fazemos algumas anotações sobre o comportamento deste experimento: como cada iteração se baseia nas saídas da iteração anterior, se houver alguma anomalias ou erros em componentes críticos, como anotação de preferência, esses erros se propagam e a única maneira de combatê -los é “reverter” para a iteração que os introduziu. Isso pode resultar em tempo e custo desperdiçados, que já são muito altos, como mostrado no Apêndice C. Suspeitamos que a “profundidade” das iterações importa mais do que a “largura” ou número de amostras em cada iteração e, além disso, ter um número igual de entradas por iteração não pode ser splendid, mas não testamos isso. Do ponto de vista da eficiência, embora esse algoritmo seja “em lotes”, algumas otimizações podem ser feitas, como começar a anotar as saídas de política amostrada, brand estão prontas, em vez de esperar que todos os trabalhos de inferência terminem.

Comprimentos “explodindo” Sabe -se que as técnicas contrastantes de treinamento de LLM, especialmente o DPO, levam a saídas mais longas do modelo, que é amplamente suspeito de ser uma forma de “hackers de recompensa”. Curiosamente, a Tabela 2 mostra que o maior salto ocorre após a primeira rodada de treinamento contrastante (iteração 1), onde os comprimentos explodem pelo menos um fator de 2 sobre o modelo SFT inicializando, antes de serem para baixo novamente na próxima iteração. Interpretamos esse “pico de comprimento” como a computação desperdiçada otimizando para um sinal espúrio; Desejamos que estivéssemos melhor equipados para controlar esse fenômeno.

fonte