Объятие лица выпустило потрясающую легкую модель визуального языка Smolvlm, которая имеет небольшие размеры и может работать на небольших устройствах, таких как мобильные телефоны, но ее производительность превышает 300-кратную модель IDEFICS80B. Этот прорывной прогресс знаменует собой продвижение приложений ИИ в отношении более широкой и более дешевой эры развертывания, что сэкономит предприятиям много вычислительных затрат и повышает эффективность обработки. Появление Smolvlm предоставляет беспрецедентную возможность для малого бизнеса и стартапов быстро разработать сложные приложения компьютерного зрения за более низкую стоимость.
Объятие лица запустило замечательную модель ИИ - Smolvlm. Эта модель визуального языка достаточно мала, чтобы работать на небольших устройствах, таких как мобильные телефоны, и превосходит предшественники, которые требуют поддержки из крупных центров обработки данных.
Потребность в памяти GPU модели Smolvlm-256M составляет менее 1 ГБ, но ее производительность превышает ее модель предшественника IDEFICS80B, которая в 300 раз больше, чем ее размер, отмечая значительный прогресс в практическом развертывании AI.
По словам Андреса Малафиотти, инженера по машинному обучению в обнимании лица, модель Smolvlm также приносит значительное снижение затрат на вычисление для предприятий, пока она вводится на рынок. «IDefics80b, которую мы выпустили ранее, была первой моделью видео с открытым исходным кодом в августе 2023 года, в то время как запуск Smolvlm достиг в 300-кратном сокращении размера при повышении производительности».
Запуск модели Smolvlm совпадает с критическим моментом, когда предприятия сталкиваются с высокими вычислительными затратами при реализации систем ИИ. Новая модель включает в себя две шкалы параметров, 256 м и 500 м, что позволяет обрабатывать изображения и визуального контента на скорости ранее немыслимых. Минимальная версия может обрабатывать до 16 экземпляров в секунду и требует только 15 ГБ памяти, что делает ее особенно подходящей для предприятий, которым необходимо обрабатывать большие объемы визуальных данных. Для компаний среднего размера, которые обрабатывают 1 миллион рисунков в месяц, это означает значительную годовую экономию затрат на вычислительные средства.
Кроме того, IBM также достигла партнерства с объятием, чтобы интегрировать модель 256 м в свое программное обеспечение для обработки документов. Хотя IBM имеет многочисленные вычислительные ресурсы, использование более мелких моделей делает его эффективным при обработке миллионов файлов по более низкой стоимости.
Команда «Объятие лица» успешно сократило размер модели, не теряя производительность благодаря технологическим инновациям в визуальной обработке и языковых компонентах. Они заменили оригинальный визуальный энкодер параметров 400 м на версию параметров 93 м и реализовали более агрессивную технологию сжатия токена. Эти инновации позволяют малым предприятиям и стартапам запускать сложные продукты Computer Vision в течение короткого периода времени, а затраты на инфраструктуру значительно снижаются.
Обучающий набор данных Smolvlm содержит 170 миллионов примеров обучения, почти половина из которых используется для обработки документов и аннотации изображения. Эти разработки не только снижают затраты, но и приносят новые возможности приложения для предприятий, что увеличивает их возможности в визуальном поиске до беспрецедентного уровня.
Этот прогресс, обнимая, сталкивается с проблемами традиционных представлений о взаимосвязи между размером модели и возможностями. Smolvlm доказывает, что небольшие и эффективные архитектуры также могут достичь превосходной производительности.
Модель: https://huggingface.co/blog/smolervlm
Очки:
Модель Smolvlm, запущенная By Hearging Face, может работать на мобильных телефонах и имеет производительность более чем в 300 раз больше, чем модель IDEFICS80B.
Модель SMOLVLM помогает предприятиям значительно снизить затраты на вычислительные средства с скоростью обработки 16 экземпляров в секунду.
Технологические инновации этой модели позволяют малым предприятиям и стартапам запускать сложные продукты компьютерного зрения за короткое время.
Появление SMOLVLM показывает, что приложения ИИ станут более популярными, и малые предприятия и отдельные разработчики могут легко использовать мощные технологии ИИ для содействия инновациям и развитию искусственного интеллекта в большем количестве областей. Его легкие и высокопроизводительные характеристики, несомненно, изменят наше понимание моделей искусственного интеллекта и укажут новый путь для будущего направления разработки технологии ИИ.