Início Tecnologia Por que o treinamento em séries temporais venceu o tune-tuning llms para...

Por que o treinamento em séries temporais venceu o tune-tuning llms para tarefas de séries temporais

19
0

 

Resumo e 1. Introdução

  1. Trabalho relacionado
  2. Metodologia
  3. Configuração experimental e resultados
  4. Conclusão e trabalho futuro

Agradecimentos

Declaração de reprodutibilidade

Declaração de impacto e referências

Transformadores e patching para modelagem de séries temporais. Existe um crescente corpo de trabalho utilizando transformadores para várias tarefas de análise de séries temporais (Wen et al., 2023). Um problema com a aplicação de transformadores aos dados de séries temporais é a complexidade do mecanismo de auto-atimento, que cresce quadraticamente com o tamanho dos tokens de entrada (ou série temporal) (Li et al., 2019). Nie et al. (2023) demonstraram que o tratamento de sub-sequências (ou patches) de séries temporais como tokens em vez de momentos individuais é um mecanismo simples, eficiente e eficaz para aprender representações úteis para previsão. Inspirando-se em trabalhos anteriores, construímos sobre a arquitetura do transformador, que toma sub-seqüências (ou patches) de séries temporais separadas como entrada.

Aprendizagem de representação mascarada. O pré-treinamento mascarado é uma tarefa de aprendizado auto-supervisionada amplamente usada, onde um modelo aprende a reconstruir com precisão partes mascaradas de sua entrada. A linguagem mascarada (Devlin et al., 2019; Raffel et al., 2020) e modelagem de imagens (Xie et al., 2022; Li et al., 2023b) foram utilizadas com sucesso para aprender modelos de vastas quantidades de dados não marcados, que podem generalizar para uma variedade de tarefas a jusante.

Para dados de séries temporais, o trabalho anterior concentrou -se principalmente no aprendizado de representação contrastante (Yue et al., 2022; Eldele et al., 2021; Franceschi et al., 2019). No entanto, a aprendizagem contrastante depende do aumento de dados, que depende de dados e dependentes de dados. Por outro lado, alguns estudos mascaram porções das séries temporais usando zeros e aprendem um modelo para reconstruí -los (Nie et al., 2023; Zerveas et al., 2021; Dong et al., 2023; Li et al., 2023c).

A aprendizagem de representação via mascaramento é adequado a todas as tarefas a jusante com as quais nos preocupamos, especialmente previstas e imputação, pois são instâncias do problema de reconstrução mascarada. Devido à sua simplicidade e sucesso nos domínios de visão e linguagem, usamos a tarefa de previsão mascarada para pré -travar nosso modelo, usando uma incorporação especial (ver [MASK] na Fig. 3) para mascarar os patches de séries temporais em vez de zeros.

Aprendizagem de transferência entre modais usando modelos de idiomas. Lu et al. (2022) mostraram primeiro que os transformadores pré-treinados em dados de texto (LLMs) podem efetivamente resolver tarefas de modelagem de sequência em outras modalidades. Posteriormente, Shen et al. (2023) Introduziu o ORCA, uma estrutura geral de ajuste fino cruzado que estende a aplicabilidade de um único modelo pré-terenciado em larga escala a diversas modalidades, adaptando-se a uma tarefa de destino por meio de um fluxo de trabalho refinado de alinhamento. Dada a entrada do destino, a ORCA primeiro aprende uma rede de incorporação que alinha a distribuição de recursos incorporada com a modalidade pré-treinamento, então o modelo pré-treinado é ajustado aos dados incorporados, explorando o conhecimento compartilhado entre as modalidades. Alguns estudos recentes alavancaram essa capacidade inerente dos transformadores pré-treinados da linguagem de “reprogramar” os LLMs para análise de séries temporais usando o ajuste fino e eficiente de parâmetro e estratégias de tokenização adequadas (Zhou et al., 2023; Gruver et al., 2023; Jin et al., 2023; Cao et al., 2023; No entanto, alguns desses modelos (Jin et al., 2023; Gruver et al., 2023) com bilhões de parâmetros exigem memória significativa e recursos computacionais para ter um bom desempenho. Nós complementamos essa linha de pesquisa com três observações empíricas (Seção 4.3): nós

” alt=”” aria-hidden=”true” />Figura 2. Data de dados da série de séries temporais divididas. Para evitar a contaminação dos dados, particionamos cuidadosamente todos os conjuntos de dados em trem, validação e divisão de teste disjuntos. Aderimos às divisões predefinidas fornecidas pelos criadores de cada conjunto de dados. Nos casos em que essas divisões não estão disponíveis, amostramos aleatoriamente 60% dos dados para treinamento, 10% para validação e 30% para teste. Utilizamos apenas as divisões de treinamento de todos os conjuntos de dados para pré-treinamento.Figura 2. Data de dados da série de séries temporais divididas. Para evitar a contaminação dos dados, particionamos cuidadosamente todos os conjuntos de dados em trem, validação e divisão de teste disjuntos. Aderimos às divisões predefinidas fornecidas pelos criadores de cada conjunto de dados. Nos casos em que essas divisões não estão disponíveis, amostramos aleatoriamente 60% dos dados para treinamento, 10% para validação e 30% para teste. Utilizamos apenas as divisões de treinamento de todos os conjuntos de dados para pré-treinamento.

Mostre que (1) transformadores treinados em séries temporais também podem modelar sequências entre modalidades, (2) durante o pré-treinamento, a inicialização aleatória de pesos levam a uma perda de pré-treinamento mais baixa, do que a inicialização com os pesos de modelagem de idiomas e os modelos (3) pré-treinados em séries de tempo superam os modelos baseados em LLM como (Zhou et al., 2023; Jin et al.

Perguntas não respondidas. Até onde sabemos, duas perguntas permanecem em grande parte sem resposta em trabalhos anteriores na modelagem de séries temporais. Primeiro, todos os modelos de séries temporais existentes são (pré-) treinados e afinados em conjuntos de dados individuais (Nie et al., 2023; Yue et al., 2022; Wu et al., 2023; Zhou et al., 2023) e os benefícios (ou desvantagens) de escala grande. Segundo, há um trabalho muito limitado sobre modelagem de séries temporais em configurações de supervisão limitadas, como previsão de tiro zero (Oreshkin et al., 2021) ou classificação de poucos tiro (Narwariya et al., 2020). Em nosso trabalho, consideramos essas questões e Mostre que o pré-treinamento um modelo de capacidade suficiente em um grande corpus de dados de séries temporais não marcadas pode de fato permitir que ele forneça previsões razoavelmente precisas em supervisão limitada configurações.

Autores:

(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, EUA ([email protected])

(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA, com igual contribuição, a ordem decidiu usar um gerador aleatório;

(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA, com igual contribuição, a ordem decidiu usar um gerador aleatório;

(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA;

(5) Shuo Li, Universidade da Pensilvânia, Filadélfia, EUA;

(6) Artur Dubrawski, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA.


fonte