Модели больших языков (LLM) добились больших успехов в области обработки естественного языка, но их обработка на основе токенов ограничивает их производительность при понимании длинного текста, а также в многоязычных и мультимодальных приложениях. Модель больших концепций (LCM), предложенная Meta AI, представляет собой совершенно новое решение, которое управляет абстрактными семантическими единицами — понятиями в многомерном пространстве внедрения, тем самым преодолевая ограничения LLM. Инновация LCM заключается в его независимом от языка и модальности подходе к моделированию, а также в его иерархической архитектуре и механизме генерации на основе диффузии. Это позволяет LCM достигать эффективного масштабируемого языкового моделирования с сильными возможностями нулевого обобщения.
Модели большого языка (LLM) добились значительного прогресса в области обработки естественного языка (NLP), что сделало их популярными в таких приложениях, как генерация текста, обобщение и ответы на вопросы. Однако зависимость LLM от обработки на уровне токенов (предсказание одного слова за раз) также создает некоторые проблемы. Этот подход контрастирует с тем, как люди общаются, который обычно работает на более высоком уровне абстракции, например, с помощью предложений или идей.
Моделирование на уровне токенов также не справляется с задачами, требующими глубокого понимания контекста, и может давать противоречивые результаты. Более того, распространение этих моделей на многоязычные и мультимодальные приложения требует больших вычислительных затрат и больших объемов данных. Чтобы решить эти проблемы, исследователи из Meta AI предложили новый метод: Большая концептуальная модель (LCM).
Большие концептуальные модели: новая парадигма семантического понимания
Большая концептуальная модель Meta AI (LCM) представляет собой отход от традиционной архитектуры LLM. LCM представляет две основные инновации:
Моделирование многомерного пространства внедрения: LCM больше не работает с дискретными токенами, а выполняет вычисления в многомерном пространстве внедрения. Это пространство представляет собой абстрактные смысловые единицы, называемые понятиями, соответствующие предложениям или высказываниям. Это пространство для встраивания, называемое SONAR, спроектировано так, чтобы быть независимым от языка и модальности и поддерживать более 200 языков и несколько модальностей, включая текст и речь.
Моделирование, не зависящее от языка и модальности. В отличие от моделей, привязанных к конкретному языку или модальности, LCM обрабатывает и генерирует контент на чисто семантическом уровне. Такая конструкция позволяет плавно переключаться между языками и модальностями, что приводит к сильному обобщению с нулевым результатом.
В основе LCM лежат концептуальные кодеры и декодеры, которые отображают входные предложения в пространство встраивания SONAR и декодируют вложения обратно в естественный язык или в другие модальности. Эти компоненты заморожены, что обеспечивает модульность и легкое расширение на новые языки или модальности без переобучения всей модели.
Технические детали и преимущества LCM
LCM представляет несколько инноваций для улучшения языкового моделирования:
Многоуровневая архитектура: LCM использует многоуровневую структуру, которая отражает процесс человеческого рассуждения. Такой дизайн улучшает согласованность длинного контента и позволяет локальное редактирование, не разрушая более широкий контекст.
Генерация на основе диффузии: модель диффузии считается наиболее эффективной конструкцией LCM. Эти модели прогнозируют следующее внедрение SONAR на основе предыдущего внедрения. Были исследованы две архитектуры:
Single Tower: один декодер Transformer обрабатывает контекстное кодирование и шумоподавление.
Башни-близнецы: отдельное кодирование и шумоподавление контекста, предоставление выделенных компонентов для каждой задачи.
Масштабируемость и эффективность. По сравнению с обработкой на уровне токенов моделирование на уровне понятий уменьшает длину последовательностей, решает квадратичную сложность стандартных преобразователей и позволяет более эффективно обрабатывать длинные контексты.
Обобщение с нулевым выстрелом: LCM демонстрирует сильные возможности обобщения с нулевым выстрелом для неизвестных языков и модальностей, используя обширную многоязычную и мультимодальную поддержку SONAR.
Критерии поиска и остановки: Алгоритм поиска с критериями остановки, основанными на расстоянии от понятия «конец документа», обеспечивает последовательную и полную генерацию без необходимости тонкой настройки.
В целом, большая концептуальная модель Meta AI (LCM) привносит новые идеи в область обработки естественного языка. Ее преимущества при обработке длинных текстовых, многоязычных и мультимодальных данных указывают на важное направление для будущего развития языковых моделей. . Появление LCM значительно расширит возможности искусственного интеллекта в межъязыковой и кросс-модальной обработке информации, а также расширит его применение в других областях.