Autores:
(1) Clemencia Siro, Universidade de Amsterdã, Amsterdã, Holanda;
(2) Mohammad Aliannejadi, Universidade de Amsterdã, Amsterdã, Holanda;
(3) Maarten de Rijke, Universidade de Amsterdã, Amsterdã, Holanda.
Tabela de hyperlinks
Resumo e 1 Introdução
2 Metodologia e 2.1 Dados e tarefas experimentais
2.2 Geração automática de diversos contextos de diálogo
2.3 Experiências de crowdsource
2.4 Condições experimentais
2.5 participantes
3 Resultados e análise e 3.1 estatísticas de dados
3.2 RQ1: Efeito de uma quantidade variável de contexto de diálogo
3.3 RQ2: Efeito do contexto de diálogo gerado automaticamente
4 discussão e implicações
5 trabalhos relacionados
6 Conclusão, limitações e considerações éticas
7 Agradecimentos e referências
A. Apêndice
3 Resultados e análise
Nós abordamos (RQ1) e (RQ2) fornecendo uma visão geral dos resultados e uma análise aprofundada de nossos experimentos de crowdsourcing. Primeiro descrevemos as principais estatísticas de dados.
3.1 Estatísticas de dados
Fase 1. A Figura 1 apresenta as distribuições de classificações de relevância e utilidade nas três variações, C0, C3 e C7. A Figura 1A indica um número maior de diálogos classificados como relevantes quando os anotadores não tinham contexto anterior (C0), em comparação com instâncias de C3 e C7, onde um número mais baixo
de diálogos receberam essas classificações. Isso sugere que, na ausência de contexto anterior, os anotadores estão mais inclinados a perceber a resposta do sistema como relevante, pois não têm evidências para afirmar o contrário. Essa tendência é particularmente prevalente quando as expressões do usuário se inclinam para conversas casuais, como perguntar sobre um filme mencionado anteriormente ou solicitar uma recomendação semelhante à sua consulta inicial, aspectos aos quais os anotadores não têm acesso. Consequentemente, isso sugere que os anotadores dependem de suposições sobre as consultas anteriores do usuário, levando a classificações mais altas para a relevância da resposta do sistema.
Observamos uma tendência semelhante para a utilidade (Figura 1B), em comparação com C3 e C7, C0 possui mais diálogos classificados como úteis. A introdução do próximo enunciado do usuário introduziu algum nível de ambiguidade aos anotadores. Evidente nos casos em que o usuário introduziu um novo merchandise não mencionado na resposta do sistema e expressou a intenção de assisti -lo, a utilidade da resposta do sistema se tornou incerta. Essa ambiguidade surge particularmente quando os anotadores não têm acesso ao contexto anterior, tornando um desafio saber se o filme foi mencionado anteriormente no contexto anterior.
Essas observações destacam o impacto da quantidade de contexto de diálogo nas percepções dos anotadores sobre relevância e utilidade na fase 1. Isso enfatiza o significado de levar em consideração os fatores contextuais ao avaliar o TDSS.
Fase 2. Na fase 2, apresentamos achados sobre como diferentes tipos de contextos de diálogo influenciam a anotação dos rótulos de relevância e utilidade. Quando o resumo do diálogo é incluído como informações suplementares para a virada em avaliação (soma c0), uma proporção maior de diálogos é anotada como relevante em comparação com o C0-LLM para relevância (60% vs. 52,5%, respectivamente); Veja a Figura 2a.
Em contraste com as observações feitas para relevância, vemos na Figura 2B que uma porcentagem maior de diálogos é predominantemente rotulada como não útil quando informações adicionais são fornecidas aos anotadores. Isso representa 60% no C0-HEU, 47,5% em C0-LLM e 45% em C0 Sm. Essa tendência é consistente com nossas observações da Fase 1, destacando que, embora as respostas do sistema possam ser relevantes, elas nem sempre se alinham com a necessidade de informações reais do usuário. Descobrimos que a soma c0 exibe o maior número de diálogos classificados como úteis, indicando sua eficácia no fornecimento de informações pertinentes para ajudar os anotadores a fazer julgamentos informados sobre a utilidade.