Dalam beberapa tahun terakhir, teknologi model bahasa besar (LLM) telah berkembang pesat, dan model bahasa visual, sebagai salah satu cabang penting, telah mendapat perhatian luas. Khususnya di Tiongkok, universitas seperti Universitas Tsinghua dan Universitas Zhejiang secara aktif mempromosikan penelitian dan pengembangan model visual sumber terbuka, memberikan vitalitas baru ke dalam pengembangan bidang kecerdasan buatan dalam negeri. Artikel ini akan fokus pada beberapa model visi open source terkenal dan menganalisis potensinya di bidang pemrosesan visi.
Universitas seperti Universitas Tsinghua dan Universitas Zhejiang telah mempromosikan alternatif sumber terbuka untuk GPT-4V, dan serangkaian model visual sumber terbuka dengan kinerja luar biasa telah muncul di Tiongkok. Diantaranya, LLaVA, CogAgent dan BakLLaVA telah menarik banyak perhatian. LLaVA telah menunjukkan kemampuan mendekati level GPT-4 dalam obrolan visual dan menjawab pertanyaan penalaran, sementara CogAgent adalah model bahasa visual sumber terbuka yang ditingkatkan pada CogVLM. Selain itu, BakLLaVA adalah model dasar Mistral7B yang ditingkatkan menggunakan arsitektur LLaVA1.5, yang memiliki kinerja dan kemampuan komersial lebih baik. Model visi open source ini memiliki potensi besar di bidang pemrosesan visi.
Munculnya model visual sumber terbuka seperti LLaVA, CogAgent, dan BakLLaVA menandai kemajuan signifikan Tiongkok di bidang kecerdasan buatan, menyediakan alat dan sumber daya yang ampuh bagi akademisi dan industri, dan juga menunjukkan bahwa model bahasa visual akan memiliki prospek penerapan yang lebih luas di masa depan. mempromosikan pengembangan berkelanjutan teknologi kecerdasan buatan, dan membawa perubahan pada semua lapisan masyarakat. Model open source ini juga menurunkan ambang batas teknis dan mendorong inovasi dan kerja sama yang lebih luas.