Tabela de links
Resumo e 1. Introdução
- Trabalho relacionado
- Metodologia
- Configuração experimental e resultados
- Conclusão e trabalho futuro
Agradecimentos
Declaração de reprodutibilidade
Declaração de impacto e referências
3. Metodologia
Primeiro, coletamos um grande número de dados de séries temporais públicas no Pilha de séries temporais e então use-o para pré-treinar um Modelo do transformador no Tarefa de previsão de séries temporais mascarada. Discutimos cada uma dessas etapas nas seções a seguir.
3.1. A pilha de séries temporais
Ao contrário do processamento de linguagem natural e da visão computacional, onde conjuntos de dados em larga escala, como a pilha (Gao et al., 2020), e ImageNet-1K (Russakovsky et al., 2015) estão facilmente disponíveis para o pré-treinamento, os conjuntos de dados do Time Public. Para preencher essa lacuna, reunimos várias séries temporais de 4 repositórios públicos específicos e específicos, resultando em um grande número de séries temporais que abrangem diversos domínios e características de séries temporais, como comprimentos, amplitudes e resoluções temporais. Chamamos esta coleção de pilha de séries temporais.
Informadores de dados de previsão de longo horizonte (Zhou et al., 2021) is a collection of 9 datasets that are widely used to evaluate long-horizon forecasting performance (Wu et al., 2023; Nie et al., 2023; Challu et al., 2023): 2 hourly and minutely subsets of the Electricity Transformer Temperature (ETT) (Zhou et al., 2021), Electricity (Trindade, 2015), Traffic (California Department of Transportation, 2024), Weather (Instituto Max Planck de Biogeoquímica, 2024), doenças do tipo influenza (ILI) (Centros de Controle e Prevenção de Doenças, 2024) e taxa de câmbio (Lai et al., 2018).
Arquivo de previsão de séries temporais da Monash (Godahewa et al., 2021) é uma coleção de 58 conjuntos de dados de previsão de horizonte curto disponível publicamente com um total de mais de 100 mil séries temporais, abrangendo uma variedade de domínios e resoluções temporais.
Arquivo de classificação UCR/UEA (Dau et al., 2018) compreende 159 conjuntos de dados de séries temporais que são frequentemente usados para comparar algoritmos de classificação (Ismail Fawaz et al., 2019). Esses conjuntos de dados pertencentes a sete categorias diferentes (esboço da imagem, leituras de sensores, captura de movimento, espectrógrafos, ECG, dispositivos elétricos e dados simulados) variam substancialmente em termos do número de classes e do tamanho do conjunto de treinamento.
Referência de Anomalia TSB-UAD (Paparrizos et al., 2022b) é uma coleção recente de séries temporais univariadas de 1980 com anomalias marcadas de 18 conjuntos de dados de detecção de anomalias propostos na última década. Esta coleção inclui séries temporais sintéticas e do mundo real, originárias de uma ampla gama de fontes, como o corpo humano, naves espaciais, ambiente e servos da Web.
Minimizar a contaminação dos dados usando a divisão cuidadosa do teste de trem. Dividimos cuidadosamente cada conjunto de dados em treinamento, validação e divisão de teste, com base nas divisões especificadas pelos criadores de dados. Quando essas divisões não estão disponíveis, amostrarmos aleatoriamente 60% dos dados para treinamento, 10% para validação e 30% para teste. Os conjuntos de dados de previsão de longo horizonte e detecção de anomalias são tipicamente séries temporais longas, que são divididas horizontalmente, como mostrado na Fig. 2. Por outro lado, os conjuntos de dados de previsão e classificação de previsão de horizonte curto geralmente contêm várias séries de tempo curto. Para esses conjuntos de dados, uma série temporal completa é treinamento, validação ou teste. Utilizamos a mesma semente aleatória, definida como 13, ao longo de nossos experimentos, desde a avaliação pré-treinamento até a jusante, garantindo assim que esse momento observa apenas as divisões de treinamento dos conjuntos de dados durante o pré-treinamento.
3.2. Arquitetura de modelo
Manusear características variadas de séries temporais. As séries temporais variam em comprimento, número de canais, amplitudes e resoluções temporais. Abordamos o comprimento variável, restringindo a entrada do momento a uma série temporal univariada de um comprimento fixo t = 512. Como é a prática comum, submaremos séries temporais mais longas, e o PAD mais curto com zeros à esquerda[2]. Além disso, a segmentação de séries temporais em patches reduz quadraticamente a pegada de memória do momento e a complexidade computacional e aumenta linearmente a série de séries temporais necessárias como entrada. Lidamos com as séries temporais multi-variadas, operando independentemente em cada canal ao longo da dimensão do lote. Como estudos recentes (Zhou et al., 2023; Nie et al., 2023), descobrimos que modelar cada canal independentemente é uma estratégia eficaz para modelar séries temporais multivariadas. Finalmente, as séries temporais de re-escala e centralização usando a normalização da instância reversível permitem o momento para modelar séries temporais com distribuições temporais significativamente diferentes (Kim et al., 2022). Não modelamos explicitamente a resolução temporal de séries temporais, uma vez que essas informações geralmente estão indisponíveis fora dos conjuntos de dados de previsão de séries temporais.
Codificador intencionalmente simples. Seguir de perto o design de transformadores no domínio do idioma, nos permite aproveitar suas implementações escaláveis e eficientes (por exemplo, verificação de gradiente, treinamento de precisão mista).
Cabeça de previsão leve. Utilizamos uma cabeça de previsão leve em vez de um decodificador do mesmo tamanho que o codificador, para permitir as modificações arquitetônicas necessárias para ajustar fino específico de uma tarefa de um número limitado de parâmetros treináveis, mantendo intacta a maior parte dos parâmetros e os recursos de alto nível aprendidos pelo codificador intacto.
3.3. Pré-treinamento usando modelagem de séries temporais mascaradas
No pré-treino, usando a tarefa de modelagem de séries temporais mascaradas. A Fig. 3 apresenta uma visão geral do nosso procedimento de pré-treinamento. Durante o treinamento, primeiro mascaramos um pequeno número de patches uniformemente aleatoriamente, substituindo suas incorporações de patch por uma máscara aprendida incorporando [MASK]. Os patches de séries temporais corrompidos são então alimentados no codificador do transformador para aprender representações de patches, que são usadas para reconstruir a série temporal original usando uma cabeça de reconstrução leve. O objetivo de pré-treinamento é minimizar o erro de reconstrução mascarado, ou seja, o erro quadrático médio entre a verdade do solo e a previsão, a média dos patches mascarados.
Configuração pré-treinamento. Pré-trepá três tamanhos diferentes de momento, correspondendo aproximadamente aos tamanhos dos codificadores em T5-small, base e grande. Especificamente, o modelo base (pequeno, grande) usa uma transformação de 12 (6, 24) camada com dimensões ocultas do tamanho d = 768 (512, 1024), 12
(8, 16) Cabeças de atenção e redes de alimentação do tamanho 3072 (2048, 4096), resultando em aproximadamente 125 (40, 385) milhões de parâmetros. Todos os pesos são inicializados aleatoriamente antes do pré-treinamento. Todos os modelos recebem uma série temporal de comprimento t = 512, dividindo-o em n = 64 manchas disjuntas de comprimento P = 8. Máscemos 30% dos patches uniformemente aleatoriamente durante o pré-treinamento.
3.4. Tuneamento fino em tarefas a jusante
O momento pode ser usado perfeitamente para várias tarefas de análise de séries temporais. Neste trabalho, consideramos 5 tarefas práticas de análise de séries temporais como exemplos, a saber: previsão, classificação, detecção de anomalias e imputação. Para tarefas de previsão com o Horizon H, substituímos a cabeça de reconstrução por uma cabeça de previsão, que primeiro se achata todas as incorporações de n-dimensional em um vetor dimensional N × D e depois o projeta em uma série temporal hdimensional por meio de uma camada de projeção linear. Para todas as outras tarefas, mantemos o chefe de reconstrução. Fornecemos descrições detalhadas de cada tarefa e configuração do momento no aplicativo. E.
Autores:
(1) Mononito Goswami, Auton Lab, Robotics Insititute, Carnegie Mellon University, Pittsburgh, EUA ([email protected])
(2) Konrad Szafer, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA, com igual contribuição, a ordem decidiu usar um gerador aleatório;
(3) Arjun Choudhry, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA, com igual contribuição, a ordem decidiu usar um gerador aleatório;
(4) Yifu Cai, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA;
(5) Shuo Li, Universidade da Pensilvânia, Filadélfia, EUA;
(6) Artur Dubrawski, Auton Lab, Robotics Institute, Carnegie Mellon University, Pittsburgh, EUA.
[2] Encontramos que uma grande maioria dos conjuntos de dados de classificação com série temporal menor que 512. Além disso, uma janela de comprimento 512 foi suficiente para a previsão precisa do longo horizonte (Nie et al., 2023).
[4] BFLOAT16