OpenBMB выпускает мультимодальную модель MiniCPM-o2.6. Мобильные телефоны также могут выполнять обработку изображений и речи — статья об искусственном интеллекте.

Автор：Eve Cole Время обновления：2025-01-28 16:16:02

Искусственный интеллект добился большого прогресса в мультимодальной обработке, но высокопроизводительные модели часто требуют огромных вычислительных ресурсов, что ограничивает их применение на периферийных устройствах. В ответ на эту проблему OpenBMB запустила MiniCPM-o2.6, эффективную мультимодальную модель, призванную преодолеть разрыв между передовыми технологиями искусственного интеллекта и устройствами с ограниченными ресурсами. MiniCPM-o2.6 имеет 8 миллиардов параметров, объединяет модули обработки изображений, речи и языка и оптимизирован для бесперебойной работы на таких устройствах, как смартфоны и планшеты, предоставляя разработчикам и предприятиям более удобный способ развертывания решений искусственного интеллекта.

За последние годы технология искусственного интеллекта добилась значительного прогресса, но остаются проблемы между вычислительной эффективностью и универсальностью. Многие продвинутые мультимодальные модели, такие как GPT-4, обычно требуют больших объемов вычислительных ресурсов, что ограничивает их использование на высокопроизводительных серверах, что затрудняет эффективное использование интеллектуальных технологий на периферийных устройствах, таких как смартфоны и планшеты. Кроме того, по-прежнему существуют технические барьеры для задач обработки, таких как анализ видео или преобразование речи в текст в реальном времени, что подчеркивает необходимость в эффективных и гибких моделях искусственного интеллекта, которые могут бесперебойно работать в ограниченных аппаратных условиях.

Чтобы решить эти проблемы, OpenBMB недавно выпустила MiniCPM-o2.6, модель с архитектурой с 8 миллиардами параметров, предназначенную для поддержки обработки зрения, речи и языка и способную эффективно работать на периферийных устройствах, таких как смартфоны, планшеты и iPad. MiniCPM-o2.6 имеет модульную конструкцию и объединяет несколько мощных компонентов:

- SigLip-400M для визуального понимания.

- Whisper-300M реализует многоязычную обработку речи.

- ЧатТТС-200М предоставляет возможности разговора.

- Qwen2.5-7B для расширенного понимания текста.

Модель получила средний балл 70,2 в тесте OpenCompass, превзойдя GPT-4V в визуальных задачах. Многоязычная поддержка и эффективная работа на устройствах потребительского уровня делают его практичным в различных сценариях применения.

MiniCPM-o2.6 обеспечивает высокую производительность благодаря следующим техническим деталям:

- Оптимизация параметров: несмотря на большой размер, он оптимизируется с помощью таких платформ, как llama.cpp и vLLM, для обеспечения точности и снижения требований к ресурсам.

- Мультимодальная обработка: поддерживает обработку изображений с разрешением до 1344×1344 и имеет функцию оптического распознавания символов для обеспечения превосходной производительности.

- Поддержка потокового мультимедиа: поддерживает непрерывную обработку видео и звука, что делает ее применимой для мониторинга в реальном времени и сценариев прямой трансляции.

- Голосовые функции: обеспечивает двуязычное понимание речи, клонирование голоса и контроль эмоций для обеспечения естественного взаимодействия в реальном времени.

- Простота интеграции: совместимость с такими платформами, как Gradio, упрощает процесс развертывания и подходит для коммерческих приложений с менее чем одним миллионом активных пользователей в день.

Эти функции делают MiniCPM-o2.6 возможностью для разработчиков и предприятий развертывать сложные решения искусственного интеллекта, не полагаясь на огромную инфраструктуру.

MiniCPM-o2.6 хорошо работает в различных областях. Он превосходит GPT-4V в визуальных задачах, реализует диалог на китайском и английском языках в реальном времени, управление эмоциями и клонирование голоса с точки зрения обработки речи, а также обладает превосходными возможностями взаимодействия с естественным языком. В то же время непрерывная обработка видео и аудио делает его пригодным для перевода в реальном времени и инструментов интерактивного обучения, обеспечивая высокую точность в задачах оптического распознавания символов, таких как оцифровка документов.

Запуск MiniCPM-o2.6 представляет собой важное достижение в области технологий искусственного интеллекта, успешно решающее давнюю проблему между ресурсоемкими моделями и совместимостью периферийных устройств. Сочетая расширенные мультимодальные возможности с эффективными операциями с периферийными устройствами, OpenBMB создает мощную и доступную модель. Поскольку искусственный интеллект становится все более важным в повседневной жизни, MiniCPM-o2.6 демонстрирует, как инновации могут сократить разрыв между производительностью и практичностью, позволяя разработчикам и пользователям в различных отраслях эффективно использовать передовые технологии.

Модель: https://huggingface.co/openbmb/MiniCPM-o-2_6

Выделять:

MiniCPM-o2.6 — это мультимодальная модель с 8 миллиардами параметров, которая может эффективно работать на периферийных устройствах и поддерживает обработку изображений, речи и языка.

Модель хорошо показала себя в тесте OpenCompass, превзошла GPT-4V в визуальных задачах и обладает возможностями многоязычной обработки.

MiniCPM-o2.6 имеет такие функции, как обработка в реальном времени, клонирование голоса и контроль эмоций, и подходит для инновационных приложений в образовании, медицине и других отраслях.

В целом, появление MiniCPM-o2.6 знаменует собой крупный прорыв в применении технологии искусственного интеллекта. Он успешно сочетает в себе мощные мультимодальные возможности с низкими требованиями к потреблению ресурсов периферийных устройств, открывая путь для широкого применения искусственного интеллекта. Технология имеет чрезвычайно высокую прикладную ценность и перспективы развития.