Artikel ini memperkenalkan Transformer², kerangka kerja adaptif baru yang diusulkan oleh Sakana AI, yang memecahkan kekurangan komputasi intensif dan statis dari metode penyempurnaan model bahasa besar (LLM) tradisional. Transformer² menggunakan mekanisme dua tahap untuk menyesuaikan bobot LLM secara real-time selama proses penalaran, memungkinkannya beradaptasi secara fleksibel terhadap berbagai tugas yang tidak diketahui dan beradaptasi dengan lingkungan seperti gurita. Intinya terletak pada penyempurnaan nilai tunggal (SVF) dan strategi adaptif, yang melatih vektor "ahli" melalui pembelajaran penguatan dan secara dinamis menggabungkan vektor-vektor ini untuk mencapai respons akurat terhadap berbagai tugas. Kerangka kerja ini memiliki banyak keunggulan seperti efisiensi parameter, modularitas, dan kompatibilitas lintas model, serta telah menunjukkan kinerja yang lebih baik daripada metode penyesuaian tradisional dalam eksperimen.
Inti dari Transformer² adalah mekanisme dua tahapnya yang unik dan teknologi penyempurnaan nilai tunggal (SVF), serta kombinasi cerdas dari beberapa strategi adaptif. Vektor "ahli" yang dilatih melalui pembelajaran penguatan memberikan model kemampuan beradaptasi yang kuat, memungkinkannya bekerja dengan baik dalam berbagai tugas yang tidak diketahui. Meskipun masih ada ruang untuk perbaikan, Transformer² tidak diragukan lagi telah mengambil langkah penting dalam membangun sistem AI yang benar-benar dinamis dan dapat diatur secara mandiri. Arah penelitian di masa depan mencakup penggabungan model dan perluasan metode CEM. Alamat makalah terlampir di akhir artikel, dan kami menantikan lebih banyak peneliti yang mengeksplorasi hal ini secara lebih mendalam.