Início Tecnologia O estudo considera as respostas de IA classificadas mais altas quando o...

O estudo considera as respostas de IA classificadas mais altas quando o contexto é limitado

27
0

Autores:

(1) Clemencia Siro, Universidade de Amsterdã, Amsterdã, Holanda;

(2) Mohammad Aliannejadi, Universidade de Amsterdã, Amsterdã, Holanda;

(3) Maarten de Rijke, Universidade de Amsterdã, Amsterdã, Holanda.

Resumo e 1 Introdução

2 Metodologia e 2.1 Dados e tarefas experimentais

2.2 Geração automática de diversos contextos de diálogo

2.3 Experiências de crowdsource

2.4 Condições experimentais

2.5 participantes

3 Resultados e análise e 3.1 estatísticas de dados

3.2 RQ1: Efeito de uma quantidade variável de contexto de diálogo

3.3 RQ2: Efeito do contexto de diálogo gerado automaticamente

4 discussão e implicações

5 trabalhos relacionados

6 Conclusão, limitações e considerações éticas

7 Agradecimentos e referências

A. Apêndice

3 Resultados e análise

Nós abordamos (RQ1) e (RQ2) fornecendo uma visão geral dos resultados e uma análise aprofundada de nossos experimentos de crowdsourcing. Primeiro descrevemos as principais estatísticas de dados.

3.1 Estatísticas de dados

Fase 1. A Figura 1 apresenta as distribuições de classificações de relevância e utilidade nas três variações, C0, C3 e C7. A Figura 1A indica um número maior de diálogos classificados como relevantes quando os anotadores não tinham contexto anterior (C0), em comparação com instâncias de C3 e C7, onde um número mais baixo

Figura 1: Distribuição de (a) relevância e (b) rótulos de utilidade para anotações de diálogo na Fase 1.Figura 1: Distribuição de (a) relevância e (b) rótulos de utilidade para anotações de diálogo na Fase 1.

de diálogos receberam essas classificações. Isso sugere que, na ausência de contexto anterior, os anotadores estão mais inclinados a perceber a resposta do sistema como relevante, pois não têm evidências para afirmar o contrário. Essa tendência é particularmente prevalente quando as expressões do usuário se inclinam para conversas casuais, como perguntar sobre um filme mencionado anteriormente ou solicitar uma recomendação semelhante à sua consulta inicial, aspectos aos quais os anotadores não têm acesso. Consequentemente, isso sugere que os anotadores dependem de suposições sobre as consultas anteriores do usuário, levando a classificações mais altas para a relevância da resposta do sistema.

Observamos uma tendência semelhante para a utilidade (Figura 1B), em comparação com C3 e C7, C0 possui mais diálogos classificados como úteis. A introdução do próximo enunciado do usuário introduziu algum nível de ambiguidade aos anotadores. Evidente nos casos em que o usuário introduziu um novo merchandise não mencionado na resposta do sistema e expressou a intenção de assisti -lo, a utilidade da resposta do sistema se tornou incerta. Essa ambiguidade surge particularmente quando os anotadores não têm acesso ao contexto anterior, tornando um desafio saber se o filme foi mencionado anteriormente no contexto anterior.

Essas observações destacam o impacto da quantidade de contexto de diálogo nas percepções dos anotadores sobre relevância e utilidade na fase 1. Isso enfatiza o significado de levar em consideração os fatores contextuais ao avaliar o TDSS.

Fase 2. Na fase 2, apresentamos achados sobre como diferentes tipos de contextos de diálogo influenciam a anotação dos rótulos de relevância e utilidade. Quando o resumo do diálogo é incluído como informações suplementares para a virada em avaliação (soma c0), uma proporção maior de diálogos é anotada como relevante em comparação com o C0-LLM para relevância (60% vs. 52,5%, respectivamente); Veja a Figura 2a.

Em contraste com as observações feitas para relevância, vemos na Figura 2B que uma porcentagem maior de diálogos é predominantemente rotulada como não útil quando informações adicionais são fornecidas aos anotadores. Isso representa 60% no C0-HEU, 47,5% em C0-LLM e 45% em C0 Sm. Essa tendência é consistente com nossas observações da Fase 1, destacando que, embora as respostas do sistema possam ser relevantes, elas nem sempre se alinham com a necessidade de informações reais do usuário. Descobrimos que a soma c0 exibe o maior número de diálogos classificados como úteis, indicando sua eficácia no fornecimento de informações pertinentes para ajudar os anotadores a fazer julgamentos informados sobre a utilidade.

Figura 2: Distribuição de (a) relevância e (b) classificações de utilidade quando os anotadores têm acesso a contexto adicional na fase 2 C0.Figura 2: Distribuição de (a) relevância e (b) classificações de utilidade quando os anotadores têm acesso a contexto adicional na fase 2 C0.

fonte