Французский гигант искусственного интеллекта совершает набег на мультимодальное поле боя: Mistral AI выпускает модель распознавания изображений и текста с открытым исходным кодом Pixtral 12B

Автор：Eve Cole Время обновления：2024-12-30 09:32:01

Mistral AI неожиданно выпустила первую мультимодальную большую модель с открытым исходным кодом Pixtral12B. Ее масштаб в 12 миллиардов параметров и мощные возможности обработки изображений и текста сравнимы с серией Claude от Anthropic и GPT-4 от OpenAI. Что еще более поразительно, так это то, что Mistral AI напрямую раскрывает вес модели и даже обеспечивает загрузку по магнитной ссылке, что значительно снижает порог использования и позволяет разработчикам и исследователям быстро приступить к работе. Размер Pixtral12B составляет всего 23,64 ГБ. Он легкий среди мультимодальных моделей, имеет низкое энергопотребление, прост в развертывании и может быть загружен за несколько минут по высокоскоростной сети.

Mistral AI в очередной раз потряс мир ИИ и выпустил Pixtral12B, первую мультимодальную большую модель с открытым исходным кодом. Эта модель, способная одновременно обрабатывать изображения и текст, не только технологична, но и привлекает широкое внимание своей открытостью. Mistral AI напрямую публикует веса моделей в Интернете и даже заботливо предоставляет магнитные ссылки.

Изюминкой Pixtral12B являются не только его мощные функции, но и изысканный дизайн. Общий размер модели составляет всего 23,64 ГБ, что делает ее легким игроком среди мультимодальных моделей. Эта функция значительно снижает энергопотребление и порог развертывания, позволяя большему количеству разработчиков и исследователей легко приступить к работе. Сообщается, что пользователи с высокоскоростным подключением к Интернету смогут завершить загрузку всего за несколько минут, что значительно улучшит доступность модели.

Pixtral12B, последний шедевр Mistral AI, разработан на основе текстовой модели Nemo12B и имеет 12 миллиардов параметров. Его возможности сопоставимы с известными мультимодальными моделями, такими как серия Claude от Anthropic и GPT-4 от OpenAI, и могут понимать и отвечать на множество сложных вопросов, связанных с изображениями.

С точки зрения технических характеристик Pixtral12B одинаково впечатляет: 40-уровневая сетевая структура, 14 336 скрытых измерений, 32 головы внимания и специальный визуальный кодер на 400 МБ, поддерживающий обработку изображений с разрешением 1024x1024.

Стоит еще отметить, что Pixtral12B показал хорошие результаты в ряде авторитетных тестов производительности. На таких платформах, как MMMU, Mathvista, ChartQA и DocVQA, его результаты превзошли многие известные мультимодальные модели, включая Phi-3 и Qwen-27B, полностью доказав его сильные стороны.

Решение Mistral AI, несомненно, будет способствовать дальнейшему развитию волны мультимодальных моделей с открытым исходным кодом. Реакция сообщества на эту новую модель была ошеломляющей: многие разработчики и исследователи стремились начать изучать потенциал Pixtral12B. Это не только отражает жизнеспособность сообщества открытого исходного кода, но и указывает на то, что мультимодальная технология искусственного интеллекта может открыть новый виток инноваций.

С выпуском Pixtral12B у нас есть основания ожидать появления более инновационных приложений. Будь то в области понимания изображений, анализа документов или кросс-модального рассуждения, эта модель может принести прорывной прогресс. Этот шаг Mistral AI, несомненно, способствовал демократизации и популяризации технологии искусственного интеллекта. Давайте подождем и посмотрим, как он изменит структуру сферы искусственного интеллекта в будущем.

адрес объятия: https://huggingface.co/mistral-community/pixtral-12b-240910

Выпуск Pixtral12B с открытым исходным кодом знаменует собой новый этап в развитии мультимодальной технологии искусственного интеллекта. Его легкий дизайн и высокая производительность будут значительно способствовать популяризации и применению технологии искусственного интеллекта. Мы с нетерпением ждем появления новых инновационных приложений на основе Pixtral12B. .