Autores:
(1) Ahatsham Hayat, Departamento de Engenharia Elétrica e de Computação, Universidade de Nebraska-Lincoln ([email protected]);
(2) Mohammad Rashedul Hasan, Departamento de Engenharia Elétrica e de Computação, Universidade de Nebraska-Lincoln ([email protected]).
Tabela de links
Resumo e 1 Introdução
2 Método
2.1 Formulação de problemas e 2.2 padrões de falta
2.3 Gerando valores ausentes
2.4 Descrição da reivindicação
3 experimentos
3.1 Resultados
4 trabalhos relacionados
5 Conclusão e direções futuras
6 limitações e referências
2 Método
2.1 Formulação de problemas
2.2 Padrões de falta de falta
Representamos o mecanismo de dados ausentes como uma distribuição condicional de m dado x, que é parametrizado por um desconhecido ϕ, como segue.
Na literatura, os três mecanismos padrão seguintes para a falta de dados são definidos [21].
Faltando completamente aleatoriamente (MCAR). Um caso MCAR ocorre quando a probabilidade de que um valor de uma variável esteja ausente seja independente da própria variável e de quaisquer outras variáveis, expressas da seguinte forma.
No MCAR, a probabilidade de falta depende não da variável ausente nem das variáveis observadas.
Faltando aleatoriamente (mar). A probabilidade de que o valor de uma variável esteja ausente dependa apenas dos valores observados de outras variáveis XO. Assim, a falta é independente das variáveis ausentes e o valor ausente é previsível com as variáveis observadas, formalizadas da seguinte maneira.
Faltando não em aleatoriamente (mNAR). Este caso corresponde aos mecanismos ausentes que não são MCAR nem MAR. No MNAR, o motivo de falta um valor pode depender de outras variáveis, mas também no valor que está faltando.
Ao contrário de Mar, a falta de MNAR não pode ser prevista apenas das variáveis observadas. Não há um método geral de lidar com dados ausentes do MNAR corretamente [14].
Freqüentemente, as razões para a falta de dados são ignoradas quando a falta é devida a MCAR ou MAR, assim os métodos de imputação podem ser simplificados [33]. Por esse motivo, a maioria das pesquisas abrange os casos em que os dados ausentes são do MAR ou do tipo MCAR.
2.3 Gerando valores ausentes
Construímos conjuntos de dados sintéticos com valores ausentes de até 30%, aplicando os três mecanismos de falta a seguir em conjuntos de dados completos: MCAR, MAR e MNAR. As implementações desses mecanismos são modificadas de [20].
McAR. Foi introduzido removendo aleatoriamente 30% das observações de cada recurso.
Mar. Primeiro, selecionamos todas as observações dentro da faixa de 30º percentil de um recurso independente (geralmente a primeira coluna no conjunto de dados). Em seguida, removemos aleatoriamente 60% de observações de cada recurso correspondente (dependente).
Mnar. Removemos as observações de um recurso se as observações se enquadram no intervalo de 30 percentis do valor do recurso.
2.4 Descrição da reivindicação
A Figura 1 ilustra o processo de reivindicação, que abrange quatro estágios: (1) Construindo um conjunto de dados de linguagem natural contextualizado, (2) gerando descritores adequados para
Valores ausentes, (3) criando um conjunto de dados contextualizado com reconhecimento de falta e (4) adaptando um LLM para tarefas a jusante. Detalhamos esses estágios abaixo.
Construindo um conjunto de dados de linguagem natural contextualizado. Construímos um conjunto de dados de linguagem natural contextualizado a partir de um conjunto de dados numérico x contendo valores ausentes. O objetivo é gerar descrição contextualmente adequada de cada atributo e suas medidas na linguagem natural. Por exemplo, um recorde do conjunto de dados de vinho da UCI [12] Com os atributos numéricos de entrada e saída, é contextualizado da seguinte maneira: “O teor de álcool no vinho é de 12,47. O nível de ácido málico no vinho é de 1,52 … a classe do vinho é classificada como vinho da classe 1.”[1] Esta etapa converte valores numéricos em descrições detalhadas, preparando o conjunto de dados para incorporar descritores de valor ausente.
Gerando descritores adequados para valores ausentes. Ao contrário dos métodos de imputação convencionais que estimam valores ausentes de dados observados usando métodos numéricos, utilizamos descritores contextualmente relevantes dos valores ausentes para imputação. Geramos esses descritores por um LLM de conversação (por exemplo, OpenAI’s ChatGPT-3.5 [2]). Solicitamos o LLM com uma descrição do conjunto de dados e o instruímos a gerar descritores de valor ausentes, como: “Para quaisquer valores de atributo ausentes, sugira um descritor para os dados ausentes que eu posso colocar nessas células”. Este método depende da extensa base de conhecimento do LLM para produzir descritores de valor ausente apropriados. Uma lista de descritores de valor desaparecido contextualmente específicos de recursos para conjuntos de dados selecionados são fornecidos no apêndice.
Criando um conjunto de dados contextualizado com consciência de falta. Construímos o conjunto de dados de linguagem natural contextualizado da falta de falta ao consciência xmissingness_AWare, substituindo os valores ausentes pelos descritores gerados. Esse processo garante que cada instância de dados esteja ciente de seus atributos ausentes, capaz de melhorar a capacidade do LLM de aprender com dados incompletos, fornecendo contexto explícito. Além disso, usamos descritores distintos para recursos separados no conjunto de dados que contêm valores ausentes, informando implicitamente um LLM para lidar com a falta de cada recurso de uma maneira contextualmente adequada para melhorar o desempenho da tarefa a jusante.
Adaptando um LLM para resolver tarefas a jusante. A etapa final envolve o Finetuning um LLM pré-treinado com o conjunto de dados com consciência e com reconhecimento de falta e rico contexto. Incorporamos instruções e estratégias de tarefas específicas para lidar com dados ausentes no processo de ajuste fino. Por exemplo, para tarefas de classificação, podemos incluir instruções como: “Preveja a classe com base nas medições dadas. Use o contexto fornecido pelos descritores de valor ausente para informar sua previsão”.
Essa abordagem estruturada, desde a transformação de conjuntos de dados para o Tuneing LLMS, significa um método abrangente para abordar a falta de dados através dos recursos do LLMS.
Este artigo está disponível na Licença ARXIV sob CC por 4,0 Deed (Atribuição 4.0 Internacional).
[1] O script python usado para contextualização é fornecido no material suplementar.