Zero One Wish выпустила серию мультимодальных языковых моделей Yi Yi-VL, которые продемонстрировали отличные характеристики в понимании изображений и текста и генерации диалогов. Модель Yi-VL достигла лучших результатов как в китайских, так и в английских наборах данных. Особенно в тесте MMMU Yi-VL-34B превзошел другие аналогичные модели с точностью 41,6%, продемонстрировав свои глубокие междисциплинарные знания и возможности применения. . В этой статье будут глубоко изучены архитектура, производительность и значение модели Yi-VL в мультимодальной сфере.
Мультимодальная языковая модель 01Wan Yi-VL является новым членом семейства моделей серии 01Wan Yi. Она обладает превосходными возможностями понимания изображений и текста, а также создания диалогов. Модель Yi-VL достигла лучших результатов как на английском наборе данных MMMU, так и на китайском наборе данных CMMMU, продемонстрировав свою силу в сложных междисциплинарных задачах. Yi-VL-34B превзошел другие мультимодальные большие модели с точностью 41,6% в новом мультимодальном тесте MMMU, продемонстрировав свои сильные междисциплинарные знания и возможности применения. Модель Yi-VL основана на архитектуре LLaVA с открытым исходным кодом и включает Vision Transformer (ViT), модуль Projection и крупномасштабные языковые модели Yi-34B-Chat и Yi-6B-Chat. ViT используется для кодирования изображений, модуль Projection реализует возможность пространственного выравнивания элементов изображения с элементами текста, а крупномасштабная языковая модель обеспечивает мощное понимание языка и возможности генерации.Появление модели Yi-VL знаменует собой новый прорыв в технологии мультимодальных языковых моделей, и стоит с нетерпением ждать ее высокой производительности и широких перспектив применения. Ожидается, что в будущем, благодаря постоянному развитию технологий, модель Yi-VL сыграет важную роль в большем количестве областей и будет способствовать прогрессу и применению технологий искусственного интеллекта.