Редактор Downcodes узнал, что китайская научно-исследовательская группа запустила сверхкрупномасштабный мультимодальный набор данных Infinity-MM и основанную на его обучении ИИ-модель Aquila-VL-2B. Этот набор данных содержит обширные описания изображений, данные визуальных инструкций и т. д. и использует передовые технологии анализа изображений и извлечения информации для обеспечения качества и разнообразия данных. Модель Aquila-VL-2B хорошо показала себя в многочисленных тестах производительности, превзойдя аналогичные системы и продемонстрировав значительный прогресс Китая в области мультимодального искусственного интеллекта. Его открытый исходный код будет в значительной степени способствовать академическим исследованиям и технологическому развитию.
Масштаб набора данных Infinity-MM ошеломляет: он содержит четыре основные категории данных: 10 миллионов описаний изображений, 24,4 миллиона общих данных визуальных инструкций, 6 миллионов избранных данных высококачественных инструкций и 3 миллиона моделей искусственного интеллекта, таких как сгенерированные GPT-4. данные. Исследовательская группа использует модель искусственного интеллекта с открытым исходным кодом RAM++ для анализа изображений и извлечения информации и обеспечивает качество и разнообразие генерируемых данных с помощью уникальной системы классификации из шести категорий.
Что касается архитектуры модели, Aquila-VL-2B построена на базе LLaVA-OneVision и объединяет языковую модель Qwen-2.5 и технологию обработки изображений SigLIP. Исследовательская группа приняла четырехэтапный метод прогрессивного обучения: начиная с базового обучения ассоциациям изображения и текста, постепенно переходя к общим визуальным задачам, специальной обработке инструкций и, наконец, включению синтетических данных, постепенно увеличивая верхний предел разрешения изображения.
Несмотря на то, что шкала параметров составляет всего 2 миллиарда, Aquila-VL-2B хорошо показала себя в различных тестах производительности. Она достигла наилучшего результата в 54,9% в мультимодальном тесте на понимание способностей MMStar и даже достигла высокого балла в 59% в тесте на математические способности MathVista, значительно превзойдя аналогичные системы. В общем тесте на понимание изображения модель показала отличные результаты — 43% и 75,2% в HallusionBench и MMBench соответственно.
Исследования показали, что введение синтетических данных вносит значительный вклад в улучшение производительности модели. Эксперименты показывают, что без использования этих дополнительных данных производительность модели падает в среднем на 2,4%. Начиная с третьего этапа, производительность Aquila-VL-2B значительно превзошла эталонные модели, такие как InternVL2-2B и Qwen2VL-2B. Особенно на четвертом этапе, по мере увеличения объема данных, улучшение производительности становится более очевидным.
Стоит отметить, что исследовательская группа открыла набор данных и модель для исследовательского сообщества, что будет во многом способствовать развитию мультимодальной технологии искусственного интеллекта. Модель не только обучена на графическом процессоре Nvidia A100, но также поддерживает чипы собственной разработки в Китае, демонстрируя высокую аппаратную адаптируемость.
Запуск модели Aquila-VL-2B знаменует собой крупный прорыв в области мультимодального искусственного интеллекта в Китае. Ее природа с открытым исходным кодом и высокая производительность будут способствовать технологическому развитию и инновациям в приложениях в этой области, придавая новую энергию будущему развитию. искусственного интеллекта. Редактор Downcodes надеется на новые подобные прорывные разработки в будущем.