Создано для сложных визуальных рассуждений! Microsoft выпускает облегченную мультимодальную модель с открытым исходным кодом Phi-3.5-vision

Автор：Eve Cole Время обновления：2024-12-22 19:16:02

Microsoft выпустила новую облегченную мультимодальную модель искусственного интеллекта Phi-3.5-vision, которая является новым членом семейства Phi-3 и предназначена для обработки текстового и визуального ввода. Модель хорошо работает в средах с ограниченными ресурсами и поддерживает длину контекста 128 КБ, что делает ее идеальной для коммерческих и исследовательских приложений. Phi-3.5-vision объединяет распознавание изображений, распознавание текста, анализ диаграмм и другие функции и продемонстрировал отличную производительность в многочисленных тестах производительности. Открытый исходный код и эффективный дизайн делают его идеальным выбором для различных приложений искусственного интеллекта.

Модель Phi-3.5-vision обеспечивает расширенное понимание изображений, оптическое распознавание символов (OCR), анализ диаграмм и таблиц, обобщение нескольких изображений или видеоклипов и многое другое. Модель продемонстрировала значительное улучшение производительности в тестах, связанных с обработкой изображений и видео.

Модель Phi-3.5-vision состоит из системы из 4,2 миллиардов параметров, включая кодеры изображений, разъемы, проекторы и языковые модели Phi-3Mini. Обучение проводится с использованием высококачественных образовательных данных, синтетических данных и тщательно проверенных государственных документов, что обеспечивает качество и конфиденциальность данных.

Phi-3.5-vision содержит три модели:

Phi-3.5Mini Instruct: легкая модель искусственного интеллекта, подходящая для сред с ограниченной памятью или вычислительными ресурсами.

Phi-3.5MoE (Mixture of Experts): первая модель Microsoft «смесь экспертов», которая хорошо справляется со сложными задачами.

Phi-3.5Vision Instruct: Мультимодальная модель, объединяющая функции обработки текста и изображений.

Основные особенности

Основные функциональные особенности модели Phi-3.5-vision включают понимание изображений, оптическое распознавание текста, понимание диаграмм и таблиц, сравнение нескольких изображений, сводку нескольких изображений или видеоклипов, эффективные возможности рассуждения, а также низкую задержку и оптимизацию памяти.

Phi-3.5-vision хорошо показал себя в нескольких тестах производительности, таких как MMMU, MMBench, TextVQA и тестах возможностей обработки видео, а также в тесте производительности BLINK, продемонстрировав свою высокую производительность в мультимодальных и визуальных задачах.

Выпуск модели Microsoft Phi-3.5-vision открывает новые возможности в области искусственного интеллекта, особенно с точки зрения работы на стороне устройства и сложного визуального мышления. Его функции с открытым исходным кодом и оптимизированный дизайн позволяют ему хорошо работать в средах с ограниченными ресурсами, обеспечивая надежную поддержку различных приложений на основе искусственного интеллекта.

Адрес загрузки модели: https://huggingface.co/microsoft/Phi-3.5-vision-instruct.

В целом, Phi-3.5-vision предоставляет мощный инструмент для разработчиков и исследователей ИИ благодаря своим легким, мультимодальным и высокопроизводительным характеристикам, способствующим применению ИИ в большем количестве областей. Его открытый исходный код также способствует обмену и развитию технологий искусственного интеллекта.