Autores:
(1) Corby Rosset, pesquisa e correspondência da Microsoft para [email protected];
(2) Ching-An Cheng, Microsoft Analysis;
(3) Arindam Mitra, Microsoft Analysis;
(4) Michael Santacroce, Microsoft Analysis;
(5) Ahmed Awadallah, pesquisa e correspondência da Microsoft para [email protected];
(6) Tengyang xie, pesquisa e correspondência da Microsoft para [email protected].
Tabela de hyperlinks
Resumo e 1 Introdução
2 preliminares
2.1 RLHF com base em modelos de recompensa
2.2 RLHF com preferências gerais
3 Otimização direta de Nash e 3,1 derivação do algoritmo 1
3.2 Análise teórica
4 algoritmo prático-auto-aperfeiçoamento iterativo
5 experimentos e 5.1 configuração experimental
5.2 Resultados e análise
6 Trabalho relacionado
7 Conclusão e referências
Apêndice
Uma extensão para preferências regularizadas
B Provas detalhadas
C Detalhes experimentais adicionais
Resumo
Este artigo estuda os modelos de grandes idiomas pós-treinamento (LLMS) usando o suggestions de preferência de um poderoso Oracle para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para o LLMS pós-treinamento envolve o aprendizado de reforço com o suggestions humano (RLHF), que tradicionalmente separa o aprendizado de recompensa e a subsequente otimização de políticas. No entanto, essa abordagem de maximização de recompensa é limitada pela natureza das recompensas “em termos de pontos” (como a do modelo Bradley-Terry), que falha em expressar relações de preferência intransitiva ou cíclica complexas. Embora os avanços no RLHF mostrem o aprendizado de recompensa e a otimização de políticas possam ser mesclados em um único objetivo contrastante para a estabilidade, eles ainda permanecem amarrados à estrutura de maximização da recompensa. Recentemente, uma nova onda de pesquisa evita as presunções de maximização da recompensa em favor de otimizar diretamente sobre as preferências “pares de pares” ou gerais. Neste artigo, introduzimos a otimização direta de Nash (DNO), um algoritmo comprovável e escalável que se casa com a simplicidade e estabilidade do aprendizado contrastivo com a generalidade teórica, da otimização de preferências gerais. Como o DNO é um algoritmo na política em lotes usando um objetivo baseado em regressão, sua implementação é direta e eficiente. Além disso, o DNO desfruta de melhorias monotônicas em todas as iterações, o que ajuda a melhorar mesmo com um professor forte (como o GPT-4). Em nossos experimentos, um modelo de parâmetro 7B resultante ORCA-2.5 alinhado pelo DNO alcança a taxa de vitória de última geração em relação ao GPT-4-Turbo de 33% no Alpacaeeval 2.0 (mesmo após o controle do comprimento da resposta), um ganho absoluto de 26% (7% → 33%) sobre o modelo inicializante. Ele supera os modelos com muito mais parâmetros, incluindo LM grande e auto-recompensa (parâmetros 70b) e versões mais antigas do GPT-4. Nossos estudos de ablação analisam decisões críticas de projeto em torno da escolha de pares de preferências e o uso de LLMS-AS-Desire-anotators. Esses resultados enfatizam a promessa do DNO no LLMS pós-treinamento, além de oferecer informações acionáveis para a comunidade de pesquisa de IA.
1 Introdução
O campo da inteligência synthetic está evoluindo para modelos avançados que podem entender, a razão, seguir instruções complexas e criar conteúdo sutil, enquanto alinham com os valores e preferências humanas. Grandes modelos de linguagem (LLMS) (por exemplo, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; Openai et al., 2023) demonstraram capacidades notáveis em geração de texto humano, respondendo a perguntas e codificação, mas ainda enfrentam desafios em tarefas que requerem um alto grau de confiabilidade. Para enfrentar esses desafios, os LLMs de ajuste fino usando o aprendizado de reforço com o suggestions humano (RLHF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et al., 2022) demonstra um forte potencial para tornar os LLMs mais úteis, alinhando-os com valores humanos.
A estrutura do RLHF tem sido estudada há muito tempo no contexto de aprendizado de reforço baseado em preferências (RL) ou RL de preferências humanas (por exemplo, Knox e Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christianano et al., 2017). Os métodos convencionais para RLHF geralmente assumem que a preferência é determinada por uma função de recompensa escalar através de algum modelo, como o modelo frequentemente usado Bradley-Terry (BT) (Bradley e Terry, 1952).[1] O RLHF otimiza em direção à preferência em um procedimento de duas etapas: aprendizado de recompensa e otimização de políticas (por meio da RL) para maximizar a recompensa aprendida. Sob certas condições, o procedimento de duas etapas pode ser simplificado em uma abordagem de aprendizado contrastivo de uma etapa (Rafailov et al., 2023), eliminando a necessidade de aprendizado explícito de recompensa. Os algoritmos desse tipo (por exemplo, Rafailov et al., 2023, DPO) alavancam o perception de que uma política pode ser expressa equivalentemente por uma “função de recompensa interna” que a política é supreme para, para que reduzam o problema do RLHF para regredir a função de recompensa interna da política para o modelo de preferência. Esses algoritmos estão originalmente offline e possuem maior estabilidade e facilidade de otimização. No entanto, os algoritmos RLHF em duas etapas e suas variantes contrastantes de etapa ainda dependem fundamentalmente da estrutura de maximização da recompensa, em que as preferências baseadas em recompensa são governadas por, por exemplo, o modelo BT.
A maximização da recompensa do enquadramento representa uma grande limitação. Funções de recompensa, definidas para produzir uma pontuação escalar r (x, y) para uma única resposta y à entrada x, não pode expressar preferências gerais y ≻ y ′ | x entre um par de saídas em todos os casos, por exemplo, preferências intransitivas ou cíclicas (Elo, 1978). Portanto, os LLMs treinados sob maximização da recompensa nem sempre podem se alinhar com a preferência humana. Além disso, trabalhos recentes mostram que, mesmo em ambientes, onde as preferências podem ser perfeitamente expressas nos modelos BT baseados em recompensa, otimizando para que as recompensas produzem comportamentos problemáticos; Referimos o leitor a Bertrand et al. (2023); Azar et al. (2023); Munos et al. (2023) Para mais detalhes. Por fim, as funções de recompensa na prática podem rapidamente se tornar “obsoletas” à medida que a distribuição das mudanças de política em treinamento (Ross et al., 2011; Cheng et al., 2023; Azar et al., 2023; Munos et al., 2023) – deixando -os vulneráveis a “recompensar hacking” (Amodei et al., 2016)
Estamos motivados a superar dois desafios separados: a expressividade limitada do RLHF baseado em recompensa e a falta de clareza sobre como ampliar a otimização em relação às preferências gerais. Avanços recentes na otimização baseada em recompensa, por exemplo, DPO, já possui implementações eficientes e escaláveis-buscamos uma solução igualmente eficiente sob a estrutura de preferências gerais.
Propomos um algoritmo RLHF comprovável e escalável – Otimização direta de Nash (DNO) (Algoritmo 1) que alcança o melhor dos dois mundos, combinando a escalabilidade de objetivos contrastantes com a solidez teórica da otimização geral de preferência. O DNO foi projetado como um algoritmo na política em lotes com um objetivo de aprendizado baseado em regressão; Essa opção de design torna o DNO estável e escalável, alcançando um equilíbrio entre a eficiência da implantação e a adaptabilidade.
Resumimos em alto nível os principais ingredientes e insights do DNO abaixo.
-
Para abordar a questão de que as funções de recompensa não podem expressar preferências gerais, aproveitamos as idéias recentes de que a noção de recompensa de deve ser expressa como taxas de vitória esperadas em relação a uma função de preferência geral.[2]
-
Para resolver o problema encontrado em trabalhos anteriores que otimizando esse objetivo mais geral com os algoritmos on-line é amostral-eficiente ou instável, decompomos o procedimento de aprendizado em uma sequência de iterações “na política em lote”, em que cada etapa otimiza um objetivo de regressão simples.
-
O objetivo de regressão (escolhemos a entropia cruzada binária) alinha a “função de recompensa interna” da política à taxa de vitória esperada em comparação com si mesma (conforme definido na linha 3 do algoritmo 1). Ao amostrar saídas da política atual a ser usada para o treinamento (ou seja, “auto-jogador”), esse procedimento incentiva o comportamento auto-aprimorado.
-
Nossa estrutura é geral o suficiente para admitir amostras fora da política em treinamento, o mais importante, as de um professor mais poderoso (consulte a escolha de µ1 e µ2 no algoritmo 1).
-
Além disso, para garantir a estabilidade e a eficiência computacional, propomos um esquema de filtragem, de modo que a regressão de recompensa seja realizada apenas em pares de preferências com uma margem suficientemente grande (para explicação teórica, consulte a Seção 4; na prática, consulte a Seção 5.2).
-
O DNO repete esse procedimento para múltiplas iterações para permitir que a política otimize em direção à preferência geral. Como cada etapa envolve um problema de regressão, ele pode ser facilmente implementado em escala.
Teoricamente, provamos que o DNO converge para o equilíbrio de Nash pretendido, em média, e que pode melhorar monotonicamente através das iterações (consulte a Seção 3.1). Além disso, nossa análise de amostra finita mostra que o erro de aproximação em qualquer iteração entre a política aprendida e o alvo é fortemente delimitada (Teorema 1).
Do lado prático, fornecemos uma implementação escalável do DNO (algoritmo 2): um algoritmo auto-iniciante iterativo com atualizações contrastantes, que se aproxima do algoritmo 1 sob várias opções de projeto críticas. Essas opções incluem: amostragem de múltiplas saídas on-line da política que está sendo treinada, usando o GPT-4 como o Oracle Desire, comparando amostras de políticas com os resultados (professores) do GPT-4 e treinando apenas em pares com “margem grande” (para explicação teórica, consulte a Seção 4; na prática, consulte a seção 5.2).
A distinção primária de nosso trabalho sobre trabalhos relacionados de Nash-MD (Munos et al., 2023) e SPO (Swamy et al., 2024) é que ambos exibem problemas de eficiência de amostra (duas atualizações de escala de tempo ou etapas de RL de eficiência de amostra) e ambos usam amostras puramente políticas. Resolvemos o problema de eficiência com um objetivo eficiente de amostra que funciona na prática, e o DNO é mais flexível para incorporar amostras fora da política do EG, um professor poderoso.
Mais importante, o DNO funciona na prática-fornecemos avaliações empíricas abrangentes, resultando em desempenho de última geração:
• O modelo de parâmetro 7B resultante ORCA-2.5, alinhado usando a implementação prática do DNO (algoritmo 2), alcança a taxa de vitória de última geração de qualquer modelo 7B, excedendo 33% contra o GPT-4-Turbo além do alpacaeval 2.0, mesmo após o controle da duração. Este é um ganho absoluto acima de 26%(7%→ 33%) em comparação com o modelo inicializado. Ele supera vários modelos avançados de fonte fechada recentes, incluindo Mistral Giant e GPT-4-0613, bem como modelos de código aberto com parâmetros muito mais (10 ×), como LM auto-recompensa (Yuan et al., 2024), que possui 70B parâmetros.
• Nossos estudos de ablação completos na Seção 5.2 Examinam pontos de contato críticos de design em torno da escolha da função de perda (finetening ou contrastiva supervisionada), paradigma de treinamento (com ou sem amostras na política), qualidade do anotador de preferência (margem grande ou não) e construção de pares de treinamento (auto-reprodução, professor-estojo, and so forth.). Nossas descobertas destacam que os métodos cuidadosamente criados codificados no algoritmo 2 levam a ganhos substanciais.
• Mostramos alguns exemplos de saídas entre iterações que demonstram melhorias qualitativas, como abordar melhores questões diferenciadas e questões presunçosas (Tabela 5), melhor organização e clareza, abster -se de fazer declarações enganosas (Tabela 6) e maior densidade de informação nas respostas (Tabela 7).
Esperamos que os resultados aqui apresentados forneçam clareza à comunidade sobre o uso do suggestions da IA para o LLMS pós-treinamento.
[1] Utilizamos o “Modelo de Recompensa” para denotar uma estrutura que traduz preferências em recompensas, por exemplo, Bradley-Terry, enquanto a “função de recompensa” é uma função (possivelmente aprendida) que produz escalares de recompensa.