Архитектурный проект больших языковых моделей (LLM) претерпевает глубокие изменения, и доминирование архитектуры Transformer сталкивается с проблемами. Чтобы решить эту проблему, Liquid AI, стартап, созданный в Массачусетском технологическом институте, запустил инновационную структуру под названием STAR (Синтез индивидуальных архитектур), целью которой является автоматическое создание и оптимизация архитектуры модели ИИ. Платформа STAR использует эволюционные алгоритмы и технологию иерархического кодирования для синтеза и оптимизации архитектур моделей на основе конкретных требований к производительности и оборудованию, демонстрируя значительные преимущества как в эффективности, так и в производительности.
Структура STAR использует эволюционные алгоритмы и системы числового кодирования для автоматизации создания и оптимизации архитектур моделей искусственного интеллекта. Исследовательская группа Liquid AI отметила, что подход к проектированию STAR отличается от проектирования традиционной архитектуры тем, что он использует метод иерархического кодирования, называемый «Геном STAR», для исследования широкого пространства проектирования потенциальных архитектур. Благодаря комбинации геномов и мутациям STAR может синтезировать и оптимизировать архитектуры, отвечающие конкретным требованиям к производительности и оборудованию.
В тестах, посвященных авторегрессионному языковому моделированию, STAR показал превосходство по производительности по сравнению с традиционными оптимизированными моделями Transformer++ и гибридными моделями. Что касается качества оптимизации и размера кэша, развитая архитектура STAR уменьшает размер кэша до 37% по сравнению с гибридной моделью и обеспечивает сокращение на 90% по сравнению с традиционным Transformer. Эта эффективность не жертвует прогностической эффективностью модели, но в некоторых случаях превосходит конкурентов.
Исследования также показывают, что архитектура STAR обладает высокой масштабируемостью: эволюционная модель STAR масштабируется со 125 миллионов параметров до 1 миллиарда параметров, работая в стандартных тестах так же или лучше, чем существующие модели Transformer++ и гибридные модели, при этом значительно сокращая рассуждения о требованиях к кэшированию.
В Liquid AI заявили, что концепция дизайна STAR включает в себя принципы динамических систем, обработки сигналов и числовой линейной алгебры для создания гибкого пространства поиска вычислительных блоков. Уникальной особенностью STAR является его модульная конструкция, которая позволяет кодировать и оптимизировать архитектуру на нескольких уровнях, предоставляя исследователям возможность получить представление об эффективных комбинациях архитектурных компонентов.
Liquid AI считает, что возможности синтеза эффективной архитектуры STAR будут применяться в различных областях, особенно в сценариях, где необходимо сбалансировать качество и эффективность вычислений. Хотя Liquid AI не объявила о конкретном коммерческом развертывании или планах ценообразования, результаты ее исследований знаменуют собой значительный прогресс в области проектирования автоматизированной архитектуры. Поскольку область искусственного интеллекта продолжает развиваться, такие структуры, как STAR, могут сыграть важную роль в формировании интеллектуальных систем следующего поколения.
Официальный блог: https://www.liquid.ai/research/automated-architecture-synthesis-via-targeted-evolution.
В целом, платформа STAR от Liquid AI предоставляет новый автоматизированный метод проектирования архитектуры моделей ИИ. Ее достижения в области эффективности и производительности имеют большое значение и открывают новые возможности для разработки будущих систем ИИ. Модульная конструкция и масштабируемость платформы также открывают ей широкие перспективы применения в различных областях.