В последние годы модели больших языков (LLM) добились значительного прогресса в области обработки естественного языка, но их методы обработки на уровне токенов имеют ограничения в понимании контекста, а также в многоязычных и мультимодальных приложениях. Meta AI предлагает для этой цели совершенно новый метод — большие концептуальные модели (LCM), направленный на устранение недостатков существующих LLM. Путем моделирования в многомерном пространстве внедрения SONAR LCM поддерживают несколько языков и модальностей, а также принимают иерархическую архитектуру для улучшения согласованности и возможностей локального редактирования длинного контента, что значительно повышает эффективность и возможности обобщения модели.
Большие концептуальные модели (LCM) представляют собой важный сдвиг по сравнению с традиционной архитектурой LLM. Они вводят две основные инновации: во-первых, LCM моделируют в многомерном пространстве внедрения, а не полагаются на дискретные токены. Это пространство внедрения, называемое SONAR, предназначено для поддержки более 200 языков и нескольких модальностей, включая текст и речь, обеспечивая возможности обработки, независимые от языка и модальности. Во-вторых, конструкция LCM обеспечивает плавный переход на семантическом уровне, обеспечивая сильные возможности нулевого обобщения для разных языков и модальностей.
В основе LCM лежат концептуальные кодеры и декодеры, которые представляют собой компоненты, которые отображают входные предложения в пространство встраивания SONAR и декодируют вложения обратно в естественный язык или в другие модальности. Замороженная конструкция этих компонентов обеспечивает модульность, позволяя легко расширять новые языки или модальности без переобучения всей модели.
Что касается технических деталей, LCM используют иерархическую архитектуру, которая имитирует процесс человеческого рассуждения, тем самым улучшая согласованность длинного контента, одновременно обеспечивая возможность локального редактирования, не нарушая общий контекст. LCM превосходно справляются с процессом генерации, используя модели диффузии, которые прогнозируют следующее внедрение SONAR на основе предыдущего внедрения. В эксперименте использовались две архитектуры: однобашенная и двухбашенная. Архитектура с двумя башнями обрабатывала контекстное кодирование и шумоподавление отдельно, что повышало эффективность.
Экспериментальные результаты показывают, что LCM с двумя башнями на основе диффузии демонстрируют конкурентоспособность в нескольких задачах. Например, в задаче многоязычного суммирования LCM превосходят базовые модели в случае нулевого выстрела, демонстрируя свою адаптивность. При этом LCM также показывают высокую эффективность и точность при обработке более коротких последовательностей, что подтверждается значительным улучшением связанных метрик.
Большая концептуальная модель Meta AI представляет собой многообещающую альтернативу традиционным языковым моделям на уровне токенов, решая некоторые ключевые ограничения существующих методов за счет многомерного внедрения концепций и обработки, независимой от модальности. Ожидается, что по мере углубления исследований этой архитектуры LCM переопределят возможности языковых моделей и обеспечат более масштабируемый и адаптируемый подход к коммуникации, управляемой искусственным интеллектом.
Вход в проект: https://github.com/facebookresearch/large_concept_model.
В целом, модель LCM, предложенная Meta AI, представляет собой инновационное решение для устранения ограничений традиционного LLM. Ее преимущества в многоязычной, мультимодальной обработке и эффективном проектировании архитектуры делают ее перспективной в области естественного языка. Обработка имеет огромный потенциал и заслуживает постоянного внимания и углубленных исследований.