Zero One Wish lançou sua série Yi de modelos de linguagem multimodal Yi-VL, que demonstrou excelente desempenho na compreensão de imagens e textos e geração de diálogos. O modelo Yi-VL alcançou resultados líderes em conjuntos de dados chineses e ingleses. Especialmente no teste de benchmark MMMU, Yi-VL-34B superou outros modelos semelhantes com uma precisão de 41,6%, demonstrando sua forte compreensão de conhecimento interdisciplinar e capacidades de aplicação. . Este artigo explorará profundamente a arquitetura, o desempenho e a importância do modelo Yi-VL no campo multimodal.
O modelo de linguagem multimodal 01Wan Yi-VL é um novo membro da família de modelos da série 01Wan Yi. Possui excelentes recursos de compreensão de imagens e textos e geração de diálogos. O modelo Yi-VL alcançou resultados líderes tanto no conjunto de dados inglês MMMU quanto no conjunto de dados chinês CMMMU, demonstrando sua força em tarefas interdisciplinares complexas. Yi-VL-34B superou outros grandes modelos multimodais no novo benchmark multimodal MMMU com uma precisão de 41,6%, demonstrando sua forte compreensão de conhecimento interdisciplinar e capacidades de aplicação. O modelo Yi-VL é baseado na arquitetura LLaVA de código aberto e inclui Vision Transformer (ViT), módulo de projeção e modelos de linguagem de grande escala Yi-34B-Chat e Yi-6B-Chat. ViT é usado para codificação de imagem, o módulo de projeção implementa a capacidade de alinhar espacialmente recursos de imagem com recursos de texto, e o modelo de linguagem em grande escala fornece recursos poderosos de compreensão e geração de linguagem.O surgimento do modelo Yi-VL marca um novo avanço na tecnologia de modelos de linguagem multimodal, e vale a pena esperar por seu poderoso desempenho e amplas perspectivas de aplicação. No futuro, com o desenvolvimento contínuo da tecnologia, espera-se que o modelo Yi-VL desempenhe um papel importante em mais campos e promova o progresso e a aplicação da tecnologia de inteligência artificial.