Tabela de hyperlinks
Resumo e 1 Introdução
2 trabalhos relacionados
3 abordagem de Sutra
3.1 O que é sutra?
3.2 Arquitetura
3.3 Dados de treinamento
4 Treinando tokenizadores multilíngues
5 MMLU multilíngue
5.1 Entendimento maciço de linguagem multitarefa
5.2 Estendendo o MMLU a vários idiomas e 5.3 desempenho consistente entre os idiomas
5.4 Comparando com os modelos principais para desempenho multilíngue
6 Avaliação quantitativa para consultas em tempo actual
7 discussão e conclusão e referências
Modelos de idiomas grandes e multilíngues: O campo de grandes modelos de linguagem (LLMS) testemunhou avanços substanciais, particularmente através do desenvolvimento de modelos como o GPT-3 [Brown et al., 2020] e Bert [Devlin et al., 2018]que estabeleceram novos benchmarks no entendimento e geração de idiomas. Esses modelos utilizam grandes quantidades de dados para aprender padrões complexos e gerar texto coerente, mas sua limitação principal tem sido um foco em grande parte nos dados do idioma inglês. Em resposta à necessidade de apoiar a diversidade linguística international, a pesquisa se expandiu para o LLMS multilíngue. Pioneiro funciona como mbert [Devlin et al., 2018] e xlm-r [Conneau et al., 2020] demonstraram potencial significativo em representações de aprendizagem que generalizam entre os idiomas. No entanto, esses modelos geralmente enfrentam desafios para equilibrar o desempenho entre os idiomas, especialmente para aqueles menos representados nos conjuntos de dados de treinamento [Conneau et al., 2020]. Além disso, à medida que o número de idiomas aumenta, a escalabilidade e a eficiência desses modelos geralmente se degradam, necessitando de arquiteturas mais especializadas para lidar com a diversidade de idiomas efetivamente [Smith et al., 2021].
Tradução da máquina neural: A tradução da máquina neural (NMT) tem sido parte integrante do progresso no desempenho do modelo multilíngue. Os sistemas iniciais de NMT foram limitados pela complexidade de suas arquiteturas e pela qualidade de suas traduções, especialmente em idiomas de baixo recurso [Wu et al., 2019]. Estudos recentes revisitaram os principais desafios da tradução da máquina no contexto de grandes modelos avançados de linguagem (LLMS). O trabalho de Koehn e Knowles [2017] Oferece informações sobre a relevância contínua de desafios, como incompatibilidade de domínio, previsão rara de palavras e tradução de sentenças longas, mesmo com o LLMS mostraram melhorias significativas nessas áreas. Além disso, um estudo de Son e Kim [2023] Explorou o desempenho da tradução do LLMS da perspectiva do usuário, destacando seu potencial para aprimorar a tradução de frases longas, além de identificar desafios persistentes em torno da incompatibilidade de domínio e previsão rara de palavras. O trabalho de Wu et al. [2016] No sistema de tradução de máquinas neurais do Google, também serviu de referência para o progresso nesse campo, a ponte entre a lacuna entre a tradução humana e a máquina. Recentemente, o trabalho de Costa-Jussà et al. [2022] mostrou que a mistura de arquitetura de especialistas pode ser usada de maneira eficaz no contexto da tradução da máquina neural e tem ganhos consideráveis no desempenho da tradução em vários idiomas de baixo resistência.
Mistura de especialistas: A mistura de especialistas (MOE) emergiu como uma arquitetura promissora para gerenciar os custos computacionais associados à ampliação de grandes modelos de linguagem (LLMS). Estudos recentes exploraram os benefícios do MOE neste contexto. Zhou et al. [2022] propuseram uma mistura de especialistas com o roteamento de escolha de especialistas, que permite a alocação dinâmica de dados entre diferentes especialistas, permitindo que cada especialista se concentre em sua experiência e obtenha a escolaridade do modelo. Da mesma forma, Zoph [2022] Investigou o design de modelos esparsos eficazes de especialistas, destacando a importância de equilibrar cuidadosamente o número e o tamanho dos especialistas para otimizar o desempenho. Além disso, Ott et al. [2022] Introduziu a família OPT de modelos abertos de linguagem de transformadores pré-treinados, que aproveitam o MOE para obter melhorias significativas na eficiência e na escalabilidade em comparação com modelos densos. Além disso, Zheng et al. [2019] Explorou a aplicação do MOE no contexto dos conjuntos de dados de idioma chineses, demonstrando o potencial dessa abordagem para aprimorar as tarefas de compreensão da linguagem. Esses estudos sugerem coletivamente que o MOE pode servir como uma escolha eficaz para a construção de LLMs altamente capazes e computacionalmente eficientes.
LLMS multimodal: Os pesquisadores também exploraram o potencial de grandes modelos de idiomas multimodais que podem processar e gerar conteúdo em diferentes modalidades, como texto, imagens e vídeo. Por exemplo, o trabalho de Dai et al. [2019] Investigou o uso de modelos multimodais para tarefas como a legenda da imagem e a resposta das perguntas visuais, demonstrando sua capacidade de alavancar informações cruzadas para aprimorar o desempenho. Da mesma forma, o estudo de Nichols e WarNow [2008] explorou a aplicação de modelos multimodais no contexto da filogenia lingüística computacional, destacando seu potencial para descobrir insights de diversas fontes de dados. Além disso, os recentes avanços no campo da tradução de máquinas multimodais, conforme discutido por Birch [2021]mostraram os benefícios de integrar informações visuais em modelos de idiomas para melhorar a qualidade da tradução.
LLMS on-line: Modelos de grandes idiomas modernos como LLAMA2, GPT-3.5 e GPT-4 foram projetados como chatbots abrangentes e de domínio aberto capazes de se envolver em diálogos prolongados em vários tópicos. No entanto, eles enfrentam uma limitação significativa: seus dados são bloqueados no tempo, levando a uma knowledge de corte para o conhecimento. Devido a isso, esses modelos às vezes geram respostas plausíveis, mas factualmente incorretas, diminuindo a confiabilidade de sua produção, conforme observado por Vu et al. [2023] e Press et al. [2022] E tais imprecisões são frequentemente vinculadas a informações desatualizadas incorporadas nos parâmetros do modelo. Uma lista detalhada de datas de corte de conhecimento para os principais modelos é mostrada na Tabela 1. Embora isso possa ser um pouco corrigido através de treinamento adicional com suggestions humano ou incorporando tarefas intensivas em conhecimento, dimensionando essas soluções para acomodar atualizações em tempo actual, como mudanças nos preços das ações, permanece desafiador [Komeili et al., 2021]. O aprendizado no contexto apresenta uma alternativa promissora, permitindo a incorporação de dados em tempo actual diretamente nos avisos do modelo para orientar a geração de respostas. Embora existam esforços contínuos para aprimorar o LLMS com os resultados da pesquisa na Web, alavancar efetivamente esses dados externos para melhorar a precisão das saídas do LLM ainda está em desenvolvimento. Nesse contexto, o SUTRA se destaca apresentando uma abordagem estruturada para o aumento da resposta, proporcionando a capacidade de aprender, raciocinar e interpretar informações de várias fontes de conhecimento.