Este artigo apresenta o Transformer², uma nova estrutura adaptativa proposta pela Sakana AI, que resolve as deficiências estáticas e computacionalmente intensivas dos métodos tradicionais de ajuste fino do modelo de linguagem grande (LLM). O Transformer² usa um mecanismo de dois estágios para ajustar os pesos do LLM em tempo real durante o processo de raciocínio, permitindo que ele se adapte com flexibilidade a diversas tarefas desconhecidas e se adapte ao ambiente como um polvo. Seu núcleo está no ajuste fino de valor singular (SVF) e nas estratégias adaptativas, que treinam vetores "especializados" por meio de aprendizagem por reforço e combinam dinamicamente esses vetores para obter respostas precisas a diferentes tarefas. Esta estrutura tem muitas vantagens, como eficiência de parâmetros, modularidade e compatibilidade entre modelos, e demonstrou melhor desempenho do que os métodos tradicionais de ajuste fino em experimentos.
O núcleo do Transformer² é seu mecanismo exclusivo de dois estágios e tecnologia de ajuste fino de valor singular (SVF), bem como a combinação inteligente de múltiplas estratégias adaptativas. Os vetores “especialistas” treinados por meio de aprendizagem por reforço conferem ao modelo uma forte adaptabilidade, permitindo-lhe um bom desempenho em uma variedade de tarefas desconhecidas. Embora ainda haja espaço para melhorias, o Transformer² deu, sem dúvida, um passo importante na construção de um sistema de IA verdadeiramente dinâmico e auto-organizado. As futuras direções de pesquisa incluem a fusão de modelos e a expansão dos métodos CEM. O endereço do artigo está anexado no final do artigo e esperamos que mais pesquisadores explorem isso em profundidade.