В этой статье представлен Transformer², новая адаптивная платформа, предложенная Sakana AI, которая устраняет интенсивные вычисления и статические недостатки традиционных методов точной настройки модели большого языка (LLM). Transformer² использует двухэтапный механизм для корректировки весов LLM в реальном времени в процессе рассуждения, что позволяет ему гибко адаптироваться к различным неизвестным задачам и адаптироваться к окружающей среде, как осьминог. Его суть заключается в точной настройке единственного значения (SVF) и адаптивных стратегиях, которые обучают «экспертные» векторы посредством обучения с подкреплением и динамически комбинируют эти векторы для достижения точного ответа на различные задачи. Эта структура имеет множество преимуществ, таких как эффективность параметров, модульность и совместимость между моделями, и продемонстрировала лучшую производительность, чем традиционные методы точной настройки в экспериментах.
Ядром Transformer² является его уникальный двухступенчатый механизм и технология точной настройки с уникальным значением (SVF), а также умная комбинация нескольких адаптивных стратегий. «Экспертные» векторы, обученные посредством обучения с подкреплением, придают модели высокую адаптивность, позволяя ей хорошо справляться с множеством неизвестных задач. Хотя возможности для совершенствования еще есть, Transformer², несомненно, сделал важный шаг на пути к созданию действительно динамичной, самоорганизующейся системы искусственного интеллекта. Будущие направления исследований включают слияние моделей и расширение методов CEM. Адрес статьи указан в конце статьи, и мы с нетерпением ждем новых исследователей, изучающих эту тему глубже.