Nos últimos anos, a tecnologia de modelo de linguagem grande (LLM) desenvolveu-se rapidamente, e o modelo de linguagem visual, como um ramo importante, recebeu ampla atenção. Especialmente na China, universidades como a Universidade de Tsinghua e a Universidade de Zhejiang promovem activamente a investigação e o desenvolvimento de modelos visuais de código aberto, injectando nova vitalidade no desenvolvimento do campo da inteligência artificial nacional. Este artigo se concentrará em vários modelos de visão de código aberto de alto perfil e analisará seu potencial no campo do processamento de visão.
Universidades como a Universidade de Tsinghua e a Universidade de Zhejiang promoveram alternativas de código aberto ao GPT-4V, e uma série de modelos visuais de código aberto com excelente desempenho surgiram na China. Entre eles, LLaVA, CogAgent e BakLLaVA têm atraído muita atenção. LLaVA demonstrou capacidades próximas aos níveis GPT-4 em bate-papo visual e resposta a perguntas de raciocínio, enquanto CogAgent é um modelo de linguagem visual de código aberto aprimorado no CogVLM. Além disso, BakLLaVA é um modelo básico Mistral7B aprimorado com a arquitetura LLaVA1.5, que possui melhor desempenho e capacidades comerciais. Esses modelos de visão de código aberto têm grande potencial no campo do processamento de visão.
O surgimento de modelos visuais de código aberto, como LLaVA, CogAgent e BakLLaVA marca o progresso significativo da China no campo da inteligência artificial, fornecendo ferramentas e recursos poderosos para a academia e a indústria, e também indica que os modelos de linguagem visual terão perspectivas de aplicação futuras mais amplas, promover o desenvolvimento sustentável da tecnologia de inteligência artificial e trazer mudanças para todas as esferas da vida. O código aberto destes modelos também reduz o limiar técnico e promove uma inovação e cooperação mais amplas.