Китайская научная исследовательская группа запустила супер-широкий мультимодальный набор данных в бесконечности-мм и модель Aaquila-VL-2B AI, обученная на основе набора данных, что привело к значительным прорывам в области мультимодального ИИ. Набор данных Infinity-MM содержит огромные описания изображений, данные о визуальных инструкциях и данные, сгенерированные моделями GPT-4, и использует модели RAM ++ для анализа изображений и уникальную систему классификации шести категорий для обеспечения качества данных. Модель Aquila-VL-2B основана на архитектуре Llava-Onevision, интегрирует языковую модель QWEN-2.5 и технологию обработки изображений Siglip, принимает четырехэтапный метод прогрессивного обучения, который отлично выполняется в нескольких тестах, превосходящих аналогичные системы.
Набор данных Infinity-MM удивителен по масштабе и содержит четыре категории данных: 10 миллионов описаний изображений, 24,4 млн. Общих данных о визуальных инструкциях, 6 миллионов выбранных высококачественных данных инструкций и 3 миллиона моделей ИИ, такие как GPT-4, сгенерированные данные. Исследовательская группа использовала модель AI с открытым исходным кодом RAM ++ для анализа изображений и извлечения информации и обеспечила качество и разнообразие сгенерированных данных с помощью уникальной системы классификации шести категорий.
С точки зрения модельной архитектуры, Aquila-VL-2B создан на основе Llava-Onevision и интегрирует языковую модель QWEN-2.5 и технологию обработки изображений Siglip. Исследовательская группа приняла четырехэтапный метод постепенного обучения: начиная с базового графического текстового обучения, постепенно переход к общим визуальным задачам и конкретной обработке инструкций и, наконец, интегрировала синтетические данные, при этом постепенно увеличивая верхний предел разрешения изображения.
Несмотря на только 2 миллиарда параметров, Aquila-VL-2B хорошо выполняла различные тесты. Лучшая оценка в мультимодальном тесте на способность к способностям MMSTAR достиг 54,9%, а высокий балл в тестировании математической способности Mathvista достиг 59%, что значительно превзошло аналогичные системы. В общем тесте понимания изображения модель достигла отличных результатов 43% и 75,2% в HallusionBench и Mmbench, соответственно.
Исследование показало, что введение синтетических данных внесло значительный вклад в улучшение производительности модели. Эксперименты показывают, что без использования этих дополнительных данных производительность модели упадет в среднем на 2,4%. Начиная с третьего этапа, производительность Aquila-VL-2b значительно превзошла эталонные модели, такие как Internvl2-2b и QWEN2VL-2B, особенно на четвертом этапе, улучшение производительности более очевидно по мере увеличения количества данных.
Стоит отметить, что исследовательская группа открыла наборы данных и модели для исследовательского сообщества, что значительно будет способствовать разработке мультимодальной технологии ИИ. Эта модель не только завершает обучение NVIDIA A100GPU, но также поддерживает китайские саморазвитые чипы, демонстрируя сильную аппаратную адаптивность.
Успех модели Aquila-VL-2B, а также открытый источник наборов и моделей данных отмечает значительный прогресс в области мультимодального искусственного интеллекта в Китае, обеспечивает прочную основу для будущего развития ИИ, а также указывает на мультимодальный ИИ Будет ли открывать более широкие перспективы заявки.