Tabela de links
Resumo e 1. Introdução
- Preliminares
- Métodos
- Experimentos
- Trabalhos relacionados
- Conclusão e referências
- Detalhes de experimentos
- Resultados experimentais adicionais
Resumo. Métodos eficientes de ajuste fino são críticos para abordar a alta complexidade computacional e de parâmetros, enquanto adapta grandes modelos pré-treinados a tarefas a jusante. Nosso estudo é inspirado em pesquisas anteriores que representam cada filtro de convolução como uma combinação linear de um pequeno conjunto de elementos de subespaço do filtro, referidos como átomos de filtro. Neste artigo, propomos que ajuste modelos pré-treinados ajustando apenas átomos de filtro, responsáveis pela convolução somente espacial, preservando o conhecimento da combinação de canais espacialmente invariantes nos coeficientes de átomos. Dessa forma, trazemos uma nova visualização de subespaço de filtro para ajuste do modelo. Além disso, cada átomo de filtro pode ser decomposto recursivamente como uma combinação de outro conjunto de átomos, que naturalmente expande o número de parâmetros ajustáveis no subespaço do filtro. Ao adaptar apenas os átomos do filtro construídos por um pequeno número de parâmetros, mantendo o restante dos parâmetros do modelo constante, a abordagem proposta é altamente eficiente em parâmetro. Ele efetivamente preserva os recursos dos modelos pré-treinados e impede o excesso de ajustes para tarefas a jusante. Experiências extensas mostram que um esquema tão simples supera as linhas de base de ajuste anterior para tarefas discriminadoras e generativas.
1 Introdução
Modelos grandes demonstraram desempenho excepcional em diversos domínios e tarefas [2, 5, 13, 24, 45, 49, 56, 62, 66]atribuindo sua capacidade de representar efetivamente padrões e relacionamentos complexos [21] por pré-treinamento em conjuntos de dados maciços [46 , 51 , 79]. Uma estratégia comum para adaptar esses grandes modelos para tarefas específicas a jusante é ajustá-las com parâmetros completos. Mas esse método apresenta dois desafios principais: (1) ajustar um grande número de parâmetros para tarefas de destino específicas é computacionalmente intensivo; (2) A disponibilidade limitada de dados -alvo aumenta o risco de excesso de ajuste [30].
Para enfrentar esses desafios, os pesquisadores desenvolveram métodos eficientes em parâmetro [ 3 , 16 , 18 , 55 , 71 , 74] Ajustando os modelos pré-treinados com apenas um número mínimo de parâmetros. Entre esses métodos, Lora [16] modelos de tunes finos sem alterar a arquitetura do modelo, tornando-se notavelmente popular para
sua simplicidade e eficácia. No entanto, Lora ainda corre o risco de ajustar demais quando ajustada em dados limitados e comprometendo a capacidade de generalização de grandes modelos. Por exemplo, a Figura 1 ilustra que, com apenas 5 amostras de treinamento, a Lora tende a produzir imagens que se assemelham aos dados de treinamento, comprometendo a capacidade de geração de imagens diversas, em comparação com os modelos pré-treinados.
Motivação. Para preservar as capacidades dos modelos pré-treinados ao finalizar as tarefas a jusante, uma abordagem proeminente no aprendizado contínuo [41, 52, 72] é formular filtros de convolução em Convnets como uma combinação linear de átomos de filtro [29, 40, 43] e ajuste fino apenas átomos de filtra [36, 75]. Especificamente, os filtros em cada camada convolucional são decompostos sobre um pequeno conjunto de elementos de subespaço do filtro, referidos como átomos de filtro, responsáveis pela convolução somente espacial. Cada camada convolucional agora é construída como combinações lineares de átomos de filtro usando coeficientes de decomposição, referidos como coeficientes de átomos, responsáveis pela combinação de canais espacialmente invariantes. A hipótese de variações entre as tarefas pode ser reduzida pela ponte de discrepâncias espaciais nas imagens, propomos calibrar o modelo pré-treinado apenas ajustando os átomos de filtro apenas espacial, preservando os pesos do canal espacialmente invariante, ie, coeficientes de átomos.
Em nosso trabalho, demonstramos que o ajuste fino de um modelo grande por meio de átomos de filtro é substancialmente eficaz e eficiente em parâmetro, pois os átomos de filtro são responsáveis pela convolução somente espacial e geralmente compreendem apenas algumas centenas de parâmetros. Essa estratégia está em harmonia com os princípios de modelagem de subespaço de tarefas, que
sugere que os parâmetros da tarefa ocupam um subespaço de baixa dimensão, permitindo que as tarefas sejam representadas como combinações de tarefas de base latente [7,26,35,50,77]. Também descobrimos que a manutenção de coeficientes de átomos fixos, ou seja, os pesos de mistura de canais espacialmente invariáveis, desempenha um papel crucial na preservação da capacidade de generalização de modelos grandes pré-treinados.
Com um grande número de parâmetros fixos, o ajuste fino apenas um pequeno conjunto de parâmetros em átomos de filtro é potencialmente desafiador para se adaptar a tarefas mais complexas. Demonstramos ainda uma maneira simples e eficaz de expandir os parâmetros ajustáveis no subespaço do filtro, sem qualquer modificação nos coeficientes de átomos, decompondo cada átomo de filtro sobre outro conjunto de átomos de filtro. Esse processo fornece um conjunto excessivo de átomos de filtro e expande o espaço de parâmetros ajustáveis, enquanto ainda exige menos parâmetros que o LORA. Além disso, fornecemos uma técnica simples para estender esse método a camadas lineares, garantindo o alinhamento com as características da literatura anterior [29, 36, 40, 43]. A ilustração do nosso método é exibida na Figura 2.
Demonstramos a eficácia de nossa abordagem em tarefas discriminativas e generativas com resnet50 [13]Convnext [32] e difusão estável [49]. Resumimos nossas contribuições da seguinte maneira,
-Propomos um método adaptando apenas elementos de subespaço do filtro (átomos de filtro), com algumas centenas de parâmetros, para obter ajuste fino significativamente eficiente em parâmetro.
– Observamos que a manutenção dos coeficientes de átomos fixos desempenha um papel crucial na preservação da capacidade de generalização de grandes modelos.
– Demonstramos ainda uma maneira simples de expandir o número de parâmetros ajustáveis no subespaço do filtro, decompondo recursivamente cada átomo de filtro sobre outro conjunto de átomos de filtro, que estende o espaço de parâmetros para ajuste.
-Realizamos extensos experimentos que demonstram a eficácia de nossa abordagem em tarefas discriminativas e generativas para modelos grandes de ajuste fino.
2 Preliminar
2.1 Adaptação de baixo rank para ajuste fino
2.2 Codificação esparsa e fatorização da matriz