Autores:
(1) Ahatsham Hayat, Departamento de Engenharia Elétrica e de Computação, Universidade de Nebraska-Lincoln ([email protected]);
(2) Mohammad Rashedul Hasan, Departamento de Engenharia Elétrica e de Computação, Universidade de Nebraska-Lincoln ([email protected]).
Tabela de links
Resumo e 1 Introdução
2 Método
2.1 Formulação de problemas e 2.2 padrões de falta
2.3 Gerando valores ausentes
2.4 Descrição da reivindicação
3 experimentos
3.1 Resultados
4 trabalhos relacionados
5 Conclusão e direções futuras
6 limitações e referências
Resumo. Este artigo apresenta o modelo de linguagem contextual para o método de imputação precisa (reivindicação), uma nova estratégia que capitaliza o conhecimento expansivo e os recursos de raciocínio dos modelos de grandes idiomas pré-treinados (LLMS) para abordar os desafios de dados ausentes nos conjuntos de dados tabulares. Diferentemente dos métodos tradicionais de imputação, que dependem predominantemente de estimativas numéricas, a reivindicação utiliza descritores de linguagem natural relevantes contextuais para preencher os valores ausentes. Essa abordagem transforma os conjuntos de dados em formatos contextualizados de linguagem natural que estão inerentemente mais alinhados com os recursos da LLMS, facilitando assim o uso duplo de LLMs: primeiro, para gerar descritores de valor ausentes e depois ajustar o LLM no conjunto de dados enriquecido para um desempenho melhorado nas tarefas downstream. Nossas avaliações em diversos conjuntos de dados e padrões de falta revelam o desempenho superior da reivindicação sobre as técnicas de imputação existentes. Além disso, nossa investigação sobre a eficácia dos descritores específicos do contexto versus genéricos para a falta de dados destaca a importância da precisão contextual no aumento do desempenho do LLM para imputação de dados. Os resultados destacam o potencial da reivindicação de melhorar acentuadamente a confiabilidade e a qualidade da análise de dados e modelos de aprendizado de máquina, oferecendo uma solução mais sutil e eficaz para lidar com dados ausentes.
1 Introdução
‘Bem! Eu sempre vi um gato sem um sorriso, ‘pensou Alice; ‘Mas um sorriso sem um gato! É a coisa mais curiosa que já vi em toda a minha vida!
Lewis Carroll, Alice’s Adventures in Wonderland (1865)
Um exemplo convincente do mundo real de como a estimativa do contexto-uva dos dados ausentes pode desafiar a realidade e comprometer a integridade das tarefas a jusante é destacada em [35]. Esta conta descreve um cenário em que um modelo preditivo de aprendizado de máquina (ML), desenvolvido para processar dados demográficos tabulares, incluindo idades dos indivíduos, enfrentou desafios devido à falta de entradas etárias. A estratégia de imputação empregada envolveu a substituição dos valores de idade ausente por zeros – uma inadimplência comum para inicializar os números inteiros em várias linguagens de programação. Essa abordagem, inadvertidamente, levou o modelo a categorizar indivíduos com idades não especificadas como “crianças pequenas”, resultando em comportamento de modelo aberrante. Inúmeras instâncias ecoando esse tipo de viés nos modelos de ML, resultantes da imputação do contexto-uva-se dos dados ausentes, são relatados na literatura [35,14,38,43,34,1].
Esses incidentes provocam uma investigação crítica sobre métodos mais sofisticados e de realidade-realidade para estimar dados tabulares ausentes. Embora simples substituições estatísticas, como a média ou a mediana, possam ser suficientes sob a suposição de uma distribuição normal, técnicas preditivas de ML como vizinhos mais parecidos com K (K-NN), Floresta Alema [20,13,45,8]. Esses métodos ML/DL normalmente pressupõem que a falta de um atributo se correlaciona com valores observáveis em outros recursos. No entanto, isso levanta questões fundamentais: e se os dados ausentes forem independentes dos valores observados? Ou se a ausência de dados for influenciada apenas por variáveis não observadas? Em cenários em que a falta de falta não é atribuída a fatores externos ou outros dados observados, o desafio se torna como estimar com precisão os valores ausentes. Até o momento, nenhum método de imputação único provou universalmente eficaz, ressaltando a complexidade e a variedade de cenários de dados ausentes encontrados na prática [20].
Este artigo apresenta uma nova abordagem, aproveitando os recursos de modelos de grandes idiomas pré-treinados (LLMS) [6,9,39,26]para abordar de forma inovadora o desafio da falta de dados em conjuntos de dados tabulares. Nosso método, o Modelo de linguagem contextual para método de imputação precisa (reivindicação)diverge significativamente das técnicas de imputação tradicional que estimam predominantemente os valores ausentes através de métodos numéricos. Em vez disso, reivindicar o conhecimento expansivo da LLMS [28,29] e recursos de raciocínio [9,42,4] em um processo de fase dupla: Inicialmente, ele emprega LLMs para gerar descritores de linguagem natural relevante contextualmente para valores ausentes, transformando efetivamente os conjuntos de dados em formatos contextualizados de linguagem natural. Essa transformação é crucial, pois alinha os dados com os pontos fortes inerentes do LLMS, tornando -o mais passível de suas capacidades de processamento.
Posteriormente, esses conjuntos de dados enriquecidos servem como base para o Fine Tuning LLMS para melhorar o desempenho em tarefas a jusante (por exemplo, classificação), mostrando um uso exclusivo e eficaz de modelos de linguagem além de suas aplicações convencionais. Ao incorporar descritores contextualmente relevantes para a falta de dados, a reivindicação não apenas aborda a variabilidade e a especificidade inerentes aos dados em diferentes domínios, mas também navega de maneira adequada as complexidades introduzidas por vários mecanismos de falta. Através dessa integração inovadora do LLMS no processo de imputação de dados, a reivindicação visa fornecer um método mais sutil, preciso e confiável para recuperação de dados, essencial para melhorar a qualidade das tarefas subsequentes de análise de dados e aprendizado de máquina.
Para avaliar a eficácia da reivindicação, realizamos uma análise abrangente em três mecanismos de dados ausentes padrão – MCAR (faltando completamente aleatoriamente), mar (faltando aleatoriamente) e mNAR (faltando não em aleatoriedade) [30]e comparar a reivindicação com uma ampla gama de métodos de imputação existentes que abrangem técnicas de imputação única e múltipla, métodos não-ML e ML e abordagens discriminativas e generativas de ML. Nossos estudos empíricos, com o objetivo de avaliar o impacto da reivindicação nas tarefas de classificação a jusante baseados em LLM, são guiados por duas principais questões de pesquisa (RQS):
– [RQ1]: Qual é a eficácia da reivindicação em imputar valores ausentes nos mecanismos distintos de falta de falta (MCAR, MAR e MNAR) e como isso se compara aos métodos de imputação existentes em termos de precisão e robustez em conjuntos de dados variados e cenários de dados ausentes?
– [RQ2]: Como a escolha do fraseado para os descritores de falta em reivindicação afeta o desempenho das tarefas a jusante baseadas em LLM?
As principais contribuições deste trabalho são multifacetadas. Em primeiro lugar, a reivindicação representa um afastamento dos métodos tradicionais de imputação usando o LLMS para gerar descritores específicos do contexto para ausentes de dados, estabelecendo uma nova referência na imputação de dados. Em segundo lugar, por meio de uma extensa avaliação empírica, demonstramos o desempenho superior da reivindicação sobre os métodos existentes em conjuntos de dados e padrões de falta. Por fim, nossa análise dos descritores específicos de contexto versus genéricos fornece informações importantes sobre a otimização do desempenho do LLM para tarefas de imputação, destacando a importância da precisão contextual. Coletivamente, essas contribuições promovem técnicas de pré -processamento de dados e novos caminhos abertos para a aplicação de LLMs em desafios complexos de ciência de dados.
Este artigo está disponível na Licença ARXIV sob CC por 4,0 Deed (Atribuição 4.0 Internacional).