Início Tecnologia Avaliando TNT-LLM: Avaliação automática, humana e baseada em LLM

Avaliando TNT-LLM: Avaliação automática, humana e baseada em LLM

17
0

Resumo e 1 Introdução

2 trabalhos relacionados

3 Método e 3.1 Fase 1: geração de taxonomia

3.2 Fase 2: Classificação de texto com agitação de LLM

4 Estratégias de avaliação de avaliação e 4.1 Fase 1

4.2 Estratégias de avaliação da Fase 2

5 experimentos e 5.1 dados

5.2 Geração de taxonomia

5.3 CLASSIFICAÇÃO DE TEXTO DE LLM UMA

5.4 Resumo das descobertas e sugestões

6 discussão e trabalho futuro e referências

A. taxonomias

B. Resultados adicionais

C. Detalhes da implementação

D. modelos de immediate

4 Suíte de avaliação

Devido à natureza não supervisionada do problema que estudamos e à falta de um padrão de referência, realizando avaliação quantitativa sobre geração de taxonomia de ponta a ponta e classificação de texto pode ser um desafio. Portanto, projetamos um conjunto de estratégias para avaliar Tnt-llm. Nossas estratégias de avaliação podem ser categorizadas em três baldes, dependendo do tipo e fonte dos critérios de avaliação. As três categorias são as seguintes:

• Avaliação automática determinística: Esse tipo de abordagem é escalável e consistente, mas requer regras e anotações padrão bem definidas e de ouro. É menos aplicável para avaliar os aspectos abstratos estudados neste artigo, como a qualidade e a utilidade de uma taxonomia do rótulo.

• Avaliação humana: Essas abordagens são úteis para avaliar os aspectos abstratos que as avaliações automáticas não podem abordar. No entanto, eles também são demorados, caros e podem encontrar restrições de privacidade e conformidade de dados.

• Avaliações baseadas em LLM: Aqui, os LLMs são usados ​​para executar as mesmas tarefas ou tarefas semelhantes que os avaliadores humanos. Esse tipo de avaliação é mais escalável e econômico que a avaliação humana, embora potencialmente sujeita a vieses e erros se não for aplicada corretamente. Portanto, pretendemos combinar e validar a avaliação baseada em LLM com métricas de avaliação humana em pequenos corpora, para que possamos extrapolar conclusões com poder estatístico suficiente.

4.1 Estratégias de avaliação da fase 1

A seguir, estudos anteriores [23, 30]Avaliamos um rótulo taxonomia sobre três critérios: cobertura, precisão e relevância para a instrução de caixa de uso. Observe que exigimos a implementação da atribuição de rótulo primário nativo para aplicar essas métricas. Para métodos baseados em cluster, isso é instanciado através do algoritmo de agrupamento. Para Tntllm, Isso é feito por um immediate de atribuição de rótulo, conforme descrito na Seção 3.2. Observamos também que a precisão do rótulo e as métricas de relevância do caso de uso discutidas aqui são aplicáveis ​​a ambos humano e Llm avaliadores.

Cobertura de taxonomia. Essa métrica mede a abrangência da taxonomia de etiqueta gerada para o corpus. Abordagens convencionais de agrupamento de texto (por exemplo, Ok-means baseadas em incorporação) geralmente atingem 100% de cobertura por design. Em nosso pipeline de geração de taxonomia baseado em LLM, adicionamos uma categoria ‘Outros’ ou ‘indefinidos’ no immediate de atribuição de rótulo por design e medimos a proporção de pontos de dados atribuídos a essa categoria. Quanto menor essa proporção, maior a cobertura da taxonomia.

Precisão da etiqueta. Isso quantifica o quão bem o rótulo atribuído reflete o ponto de dados do texto, em relação a outros rótulos na mesma taxonomia. Análogo ao agrupamento do modelo de mistura, o rótulo primário deve ser o mais provável, dado o texto. Assumimos que os avaliadores humanos e LLM podem avaliar o rótulo ajustado por seu nome e descrição. Tratamos a precisão como uma tarefa de comparação em pares: para cada texto, obtemos o rótulo primário e um rótulo negativo aleatório da mesma taxonomia e pedimos a um avaliador para escolher o rótulo mais preciso com base em seus nomes e descrições.[1] Se o avaliador identificar corretamente o rótulo positivo, consideramos um “acerto” e relatamos a taxa média de acertos como a métrica de precisão do rótulo. Não avaliamos explicitamente a sobreposição entre os rótulos da categoria e esperamos que ela seja implicitamente refletida na métrica de precisão da etiqueta em pares.

Relevância para a instrução de uso de uso. Essa métrica mede o quão relevante a taxonomia de etiqueta gerada é para a instrução de casos de uso. Por exemplo, “criação de conteúdo” é relevante para uma instrução para “entender a intenção do usuário em uma conversa”, enquanto “história e cultura” não são. Operacionalizamos isso como uma tarefa de classificação binária: para cada instância, fornecemos seu nome e descrição do rótulo primário a um avaliador humano ou LLM e pedimos que eles decidam se o rótulo é relevante para a instrução de uso de uso ou não. Observe que instruímos o avaliador a usar a instância apresentada como contexto e avaliamos a relevância condicionada à capacidade do rótulo de descrever com precisão algum aspecto da entrada de texto. O objetivo dessa métrica não é avaliar a precisão do rótulo, mas descartar a aleatoriedade introduzida por taxonomias que são aparentemente relevantes para a instrução de caixa de uso, mas irrelevantes para a amostra de corpus-e, portanto, inúteis para aplicações a jusante.


[1] Os avaliadores também recebem uma opção “nenhum” além do par, mas são instruídos a minimizar o uso dela.

Autores:

(1) Menging Wan, Microsoft Company e Microsoft Company;

(2) Tara Safavi (autores correspondentes), Microsoft Company;

(3) Sujay Kumar Jauhar, Microsoft Company;

(4) Yujin Kim, Microsoft Company;

(5) Scott Counts, Microsoft Company;

(6) Jennifer Neville, Microsoft Company;

(7) Siddharth Suri, Microsoft Company;

(8) Chirag Shah, Universidade de Washington e trabalho realizado enquanto trabalhava na Microsoft;

(9) Ryen W. White, Microsoft Company;

(10) Longqi Yang, Microsoft Company;

(11) Reid Andersen, Microsoft Company;

(12) Georg Buscher, Microsoft Company;

(13) Dhruv Joshi, Microsoft Company;

(14) Nagu Rangan, Microsoft Company.

fonte