Início Tecnologia Por que o treinamento em séries temporais venceu o tune-tuning llms para...

Tecnologia

Por que o treinamento em séries temporais venceu o tune-tuning llms para tarefas de séries temporais

Por

Bouville Fabienne

8 Julho 2025

Tabela de links

Resumo e 1. Introdução

Trabalho relacionado
Metodologia
Configuração experimental e resultados
Conclusão e trabalho futuro

Agradecimentos

Declaração de reprodutibilidade

Declaração de impacto e referências

Transformadores e patching para modelagem de séries temporais. Existe um crescente corpo de trabalho utilizando transformadores para várias tarefas de análise de séries temporais (Wen et al., 2023). Um problema com a aplicação de transformadores aos dados de séries temporais é a complexidade do mecanismo de auto-atimento, que cresce quadraticamente com o tamanho dos tokens de entrada (ou série temporal) (Li et al., 2019). Nie et al. (2023) demonstraram que o tratamento de sub-sequências (ou patches) de séries temporais como tokens em vez de momentos individuais é um mecanismo simples, eficiente e eficaz para aprender representações úteis para previsão. Inspirando-se em trabalhos anteriores, construímos sobre a arquitetura do transformador, que toma sub-seqüências (ou patches) de séries temporais separadas como entrada.

Aprendizagem de representação mascarada. O pré-treinamento mascarado é uma tarefa de aprendizado auto-supervisionada amplamente usada, onde um modelo aprende a reconstruir com precisão partes mascaradas de sua entrada. A linguagem mascarada (Devlin et al., 2019; Raffel et al., 2020) e modelagem de imagens (Xie et al., 2022; Li et al., 2023b) foram utilizadas com sucesso para aprender modelos de vastas quantidades de dados não marcados, que podem generalizar para uma variedade de tarefas a jusante.

Para dados de séries temporais, o trabalho anterior concentrou -se principalmente no aprendizado de representação contrastante (Yue et al., 2022; Eldele et al., 2021; Franceschi et al., 2019). No entanto, a aprendizagem contrastante depende do aumento de dados, que depende de dados e dependentes de dados. Por outro lado, alguns estudos mascaram porções das séries temporais usando zeros e aprendem um modelo para reconstruí -los (Nie et al., 2023; Zerveas et al., 2021; Dong et al., 2023; Li et al., 2023c).

A aprendizagem de representação via mascaramento é adequado a todas as tarefas a jusante com as quais nos preocupamos, especialmente previstas e imputação, pois são instâncias do problema de reconstrução mascarada. Devido à sua simplicidade e sucesso nos domínios de visão e linguagem, usamos a tarefa de previsão mascarada para pré -travar nosso modelo, usando uma incorporação especial (ver [MASK] na Fig. 3) para mascarar os patches de séries temporais em vez de zeros.

Aprendizagem de transferência entre modais usando modelos de idiomas. Lu et al. (2022) mostraram primeiro que os transformadores pré-treinados em dados de texto (LLMs) podem efetivamente resolver tarefas de modelagem de sequência em outras modalidades. Posteriormente, Shen et al. (2023) Introduziu o ORCA, uma estrutura geral de ajuste fino cruzado que estende a aplicabilidade de um único modelo pré-terenciado em larga escala a diversas modalidades, adaptando-se a uma tarefa de destino por meio de um fluxo de trabalho refinado de alinhamento. Dada a entrada do destino, a ORCA primeiro aprende uma rede de incorporação que alinha a distribuição de recursos incorporada com a modalidade pré-treinamento, então o modelo pré-treinado é ajustado aos dados incorporados, explorando o conhecimento compartilhado entre as modalidades. Alguns estudos recentes alavancaram essa capacidade inerente dos transformadores pré-treinados da linguagem de “reprogramar” os LLMs para análise de séries temporais usando o ajuste fino e eficiente de parâmetro e estratégias de tokenização adequadas (Zhou et al., 2023; Gruver et al., 2023; Jin et al., 2023; Cao et al., 2023; No entanto, alguns desses modelos (Jin et al., 2023; Gruver et al., 2023) com bilhões de parâmetros exigem memória significativa e recursos computacionais para ter um bom desempenho. Nós complementamos essa linha de pesquisa com três observações empíricas (Seção 4.3): nós

” alt=”” aria-hidden=”true” />

Mostre que (1) transformadores treinados em séries temporais também podem modelar sequências entre modalidades, (2) durante o pré-treinamento, a inicialização aleatória de pesos levam a uma perda de pré-treinamento mais baixa, do que a inicialização com os pesos de modelagem de idiomas e os modelos (3) pré-treinados em séries de tempo superam os modelos baseados em LLM como (Zhou et al., 2023; Jin et al.

Perguntas não respondidas. Até onde sabemos, duas perguntas permanecem em grande parte sem resposta em trabalhos anteriores na modelagem de séries temporais. Primeiro, todos os modelos de séries temporais existentes são (pré-) treinados e afinados em conjuntos de dados individuais (Nie et al., 2023; Yue et al., 2022; Wu et al., 2023; Zhou et al., 2023) e os benefícios (ou desvantagens) de escala grande. Segundo, há um trabalho muito limitado sobre modelagem de séries temporais em configurações de supervisão limitadas, como previsão de tiro zero (Oreshkin et al., 2021) ou classificação de poucos tiro (Narwariya et al., 2020). Em nosso trabalho, consideramos essas questões e Mostre que o pré-treinamento um modelo de capacidade suficiente em um grande corpus de dados de séries temporais não marcadas pode de fato permitir que ele forneça previsões razoavelmente precisas em supervisão limitada configurações.

Autores:

(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, EUA ([email protected])

(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA, com igual contribuição, a ordem decidiu usar um gerador aleatório;

(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA, com igual contribuição, a ordem decidiu usar um gerador aleatório;

(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA;

(5) Shuo Li, Universidade da Pensilvânia, Filadélfia, EUA;

(6) Artur Dubrawski, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA.

fonte

Por que o treinamento em séries temporais venceu o tune-tuning llms para tarefas de séries temporais

Tabela de links

Recente

Como Burnley assinou Kyle Walker – A história interna: a razão...

Notícias de transferência de Rodrygo: enorme oferta vindo da Premier League,...

É uma pena – Donnarumma lamenta a derrota de choque do...

Awoniyi retorna ao treinamento completo em Nottingham Forest

Puma dobra no Manchester Metropolis com extensão recorde

Manchetes para convite feminino da MLBB Semana 2 da Copa do...

O esgotamento de Rishabh Pant e o Brainfade de Karun Nair...

Begi Stars FC Kickstarts Adoção de talentos de futebol de base,...

Fireplace Fireplace Esports Copa do Mundo de 2025: Equipe de Fase...

Suarez, de Diamondbacks, atingido por arremesso no All-Star Sport; Raios-X negativos