Редактор Downcodes предоставляет вам новейшую технологическую информацию! Стартап Moondream из Сиэтла запустил Moondream2, удивительную компактную модель визуального языка, которая произвела фурор в отрасли благодаря своему небольшому размеру и высокой производительности. Эта модель с открытым исходным кодом хорошо показала себя в различных тестах производительности, в некоторых аспектах даже превзойдя конкурентов с более высокими параметрами, открывая новые возможности локального распознавания изображений на смартфонах. Давайте подробнее рассмотрим, что делает Moondream2 уникальным и стоящие за ним технологические инновации.
Недавно Moondream, стартап из Сиэтла, запустил компактную модель визуального языка под названием Moondream2. Несмотря на небольшой размер, модель хорошо показала себя в различных тестах производительности и привлекла большое внимание. Будучи моделью с открытым исходным кодом, Moondream2 обещает обеспечить возможность локального распознавания изображений на смартфонах.
Moondream2 был официально выпущен в марте. Модель может обрабатывать ввод текста и изображений, а также отвечать на вопросы, извлекать текст (OCR), подсчитывать объекты и классифицировать предметы. С момента ее выпуска команда Moondream продолжала обновлять модель, постоянно улучшая ее базовую производительность. Июльский выпуск демонстрирует значительные улучшения в распознавании текста и понимании документов, особенно в анализе исторических экономических данных. Оценки модели в DocVQA, TextVQA и GQA превышают 60%, что свидетельствует о ее сильных возможностях при локальном выполнении.
Примечательной особенностью Moondream2 является его компактный размер: имеется всего 1,6 миллиарда параметров, что позволяет ему работать не только на облачных серверах, но и на локальных компьютерах и даже на некоторых менее производительных устройствах, таких как смартфоны или одноплатные компьютеры.
Несмотря на небольшой размер, его производительность сравнима с некоторыми конкурирующими моделями с миллиардами параметров, а в некоторых тестах даже превосходит более крупные модели.
При сравнении моделей визуального языка мобильных устройств исследователи отметили, что, хотя Moondream2 имеет всего 170 миллионов параметров, его производительность эквивалентна модели с 700 миллионами параметров, а ее производительность лишь немного уступает набору данных SQA. Это показывает, что, хотя небольшие модели работают хорошо, они по-прежнему сталкиваются с проблемами в понимании конкретных контекстов.
Викхят Коррапати, разработчик модели, сказал, что Moondream2 построен на других моделях, таких как SigLIP, Microsoft Phi-1.5 и наборах обучающих данных LLaVA. Модель с открытым исходным кодом теперь доступна для бесплатного скачивания на GitHub, а демо-версия показана на Hugging Face. На платформе кодирования Moondream2 также привлек широкое внимание сообщества разработчиков, получив более 5000 звездных отзывов.
Успех привлек инвесторов: Moondream привлекла $4,5 млн в рамках посевного раунда под руководством Felicis Ventures, фонда Microsoft M12GitHub и Ascend. Генеральный директор компании Джей Аллен много лет работал в Amazon Web Services (AWS) и возглавляет растущий стартап.
Запуск Moondream2 знаменует собой рождение серии профессионально оптимизированных моделей с открытым исходным кодом, которые требуют меньше ресурсов, обеспечивая при этом производительность, аналогичную более крупным и старым моделям. Хотя на рынке есть несколько небольших локальных моделей, таких как умный помощник Apple и Gemini Nano от Google, эти два производителя по-прежнему передают более сложные задачи облачному сервису.
обнимающее лицо: https://huggingface.co/vikhyatk/moondream2
гитхаб: https://github.com/vikhyat/moondream
Появление Moondream2 знаменует энергичную разработку облегченных моделей искусственного интеллекта, предоставляющих новые возможности для локализованных приложений искусственного интеллекта. Открытый исходный код также способствует активному участию сообщества разработчиков и придаёт новый импульс развитию технологий искусственного интеллекта. Мы с нетерпением ждем новых подобных новинок в будущем!