Токийский стартап Rhymes AI выпустил свою первую модель искусственного интеллекта Aria — мультимодальную гибридную экспертную модель (MoE) с открытым исходным кодом. Редактор Downcodes узнал, что Aria хорошо справляется с обработкой различных входных данных, таких как текст, код, изображения и видео, и ее возможности даже превосходят некоторые известные бизнес-модели. Aria использует уникальную архитектуру MoE для повышения эффективности вычислений с помощью нескольких специализированных экспертов и имеет мультимодальное контекстное окно, содержащее до 24,9 миллиардов параметров и 64 000 токенов, что позволяет обрабатывать более длинные входные данные. Rhymes AI также сотрудничала с AMD для оптимизации производительности моделей и запустила поисковое приложение BeaGo на базе оборудования AMD.
Aria разработана для обеспечения превосходных возможностей понимания и обработки различных входных форматов, включая текст, код, изображения и видео. В отличие от традиционной модели «Трансформатор», модель МО заменяет уровень прямой связи несколькими профессиональными экспертами. При обработке каждого входного токена модуль маршрутизации выбирает подмножество экспертов для активации, тем самым повышая эффективность вычислений и уменьшая количество параметров активации на каждый токен.
Декодер Aria может активировать 3,5 миллиарда параметров для каждого текстового токена, а вся модель содержит 24,9 миллиарда параметров. Для обработки визуального ввода Aria также разработала легкий визуальный кодировщик с 438 миллионами параметров, который может преобразовывать визуальный ввод различной длины, размера и соотношения сторон в визуальные токены. Кроме того, мультимодальное контекстное окно Aria достигает 64 000 токенов, что означает, что оно может обрабатывать более длинные входные данные.
С точки зрения обучения Rhymes AI разделен на четыре этапа. Сначала он использует текстовые данные для предварительного обучения, затем вводит мультимодальные данные, после чего следует обучение с помощью длинных последовательностей и, наконец, точная настройка.
В этом процессе Aria использовала в общей сложности 6,4 триллиона текстовых токенов и 400 миллиардов мультимодальных токенов для предварительного обучения. Данные были получены из известных наборов данных, таких как Common Crawl и LAION, и были выполнены некоторые синтетические улучшения.
Согласно соответствующим тестам производительности, Aria превосходит такие модели, как Pixtral-12B и Llama-3.2-11B, в нескольких мультимодальных, языковых и программных задачах, а также имеет более низкие затраты на вывод из-за меньшего количества параметров активации.
Кроме того, Aria хорошо работает при обработке видео с субтитрами или многостраничных документов, а ее способность понимать длинные видео и документы превосходит другие модели с открытым исходным кодом, такие как GPT-4o mini и Gemini1.5Flash .
Для простоты использования Rhymes AI публикует исходный код Aria на GitHub под лицензией Apache2.0, поддерживая академическое и коммерческое использование. В то же время они также предоставляют среду обучения, которая может точно настроить Aria для нескольких источников и форматов данных на одном графическом процессоре. Стоит отметить, что Rhymes AI заключила сотрудничество с AMD для оптимизации производительности модели и продемонстрировала поисковое приложение под названием BeaGo, которое может работать на оборудовании AMD и предоставлять пользователям более полные результаты поиска по тексту и изображениям.
Выделять:
Aria — первая в мире мультимодальная гибридная экспертная модель искусственного интеллекта с открытым исходным кодом.
Aria превосходит многие аналогичные модели при обработке различных входных данных, таких как текст, изображения и видео.
? Rhymes AI сотрудничает с AMD для оптимизации производительности модели и запуска поискового приложения BeaGo, поддерживающего множество функций.
В целом, открытый исходный код и высокая производительность модели Aria принесли новые прорывы в область искусственного интеллекта и предоставили разработчикам и исследователям мощные инструменты. Его мультимодальные возможности и высокая вычислительная эффективность открывают ему большой потенциал в будущих приложениях. Редактор Downcodes надеется на применение и развитие Aria в других областях.