В последние годы технология больших языковых моделей (LLM) быстро развивалась, и модель визуального языка как важная отрасль получила широкое внимание. Такие университеты, как Университет Цинхуа и Университет Чжэцзян, особенно в Китае, активно продвигают исследования и разработки визуальных моделей с открытым исходным кодом, придавая новую жизнь развитию отечественной области искусственного интеллекта. В этой статье основное внимание будет уделено нескольким известным моделям машинного зрения с открытым исходным кодом и анализируется их потенциал в области обработки изображений.
Такие университеты, как Университет Цинхуа и Университет Чжэцзян, продвигают альтернативы GPT-4V с открытым исходным кодом, а в Китае появилась серия визуальных моделей с открытым исходным кодом с превосходными характеристиками. Среди них большое внимание привлекли LLaVA, CogAgent и BakLLaVA. LLaVA продемонстрировала возможности, близкие к уровням GPT-4, в визуальном общении и аргументировании ответов на вопросы, а CogAgent — это модель визуального языка с открытым исходным кодом, улучшенная на CogVLM. Кроме того, BakLLaVA представляет собой базовую модель Mistral7B, усовершенствованную с использованием архитектуры LLaVA1.5, которая имеет лучшую производительность и коммерческие возможности. Эти модели машинного зрения с открытым исходным кодом имеют большой потенциал в области обработки изображений.
Появление визуальных моделей с открытым исходным кодом, таких как LLaVA, CogAgent и BakLLaVA, знаменует собой значительный прогресс Китая в области искусственного интеллекта, предоставляя мощные инструменты и ресурсы для научных кругов и промышленности, а также указывает на то, что модели визуального языка будут иметь более широкие перспективы применения в будущем. способствовать устойчивому развитию технологий искусственного интеллекта и вносить изменения во все сферы жизни. Открытый исходный код этих моделей также снижает технический порог и способствует более широким инновациям и сотрудничеству.