Китайская исследовательская группа сделала большой прорыв и успешно создала крупнейший общественный мультимодальный набор данных AI «Infinity-MM», основанный на этом, и обучила небольшую модель с превосходной производительностью Aquila-VL-2B. Этот набор данных содержит массовые описания изображений, данные о визуальных инструкциях и данные, сгенерированные моделями ИИ, такими как GPT-4. Модель Aquila-VL-2B достигла отличных результатов в многочисленных тестах, с 2 миллиардами параметров, но в базовом тесте MMSTAR имеет высокий балл 54,9%, а также выдает задачи понимания математики и изображений Эффективное использование синтетических данных, производительность модели была улучшена на 2,4%. Что еще более важно, набор данных и модель были открыты для исследовательского сообщества, что стимулирует разработку ИИ с открытым исходным кодом.
Это результат исследования знаменует собой значительный прогресс в мультимодальной области ИИ в Китае. Полем Доступны проект «Бесконечно-мм» и «Aquila-VL-2B», пожалуйста, посетите соответствующую ссылку, чтобы узнать больше.