Zero One Wish는 다중 모달 언어 모델인 Yi 시리즈 Yi-VL을 출시했습니다. 이 시리즈는 이미지 및 텍스트 이해와 대화 생성에서 탁월한 성능을 입증했습니다. Yi-VL 모델은 중국어와 영어 데이터 세트 모두에서 최고의 결과를 달성했습니다. 특히 MMMU 벤치마크 테스트에서 Yi-VL-34B는 41.6%의 정확도로 다른 유사한 모델을 능가하여 강력한 학제간 지식 이해 및 적용 능력을 입증했습니다. . 이 기사에서는 다중 모드 분야에서 Yi-VL 모델의 아키텍처, 성능 및 중요성을 심층적으로 탐구합니다.
01Wan Yi-VL 다중 모드 언어 모델은 01Wan Yi 시리즈 모델 제품군의 새로운 구성원입니다. 이미지 및 텍스트 이해와 대화 생성 기능이 뛰어납니다. Yi-VL 모델은 영어 데이터 세트 MMMU와 중국 데이터 세트 CMMMU 모두에서 선도적인 결과를 달성하여 복잡한 학제간 작업에서 그 강점을 입증했습니다. Yi-VL-34B는 새로운 다중 모드 벤치마크 MMMU에서 41.6%의 정확도로 다른 다중 모드 대형 모델을 능가하여 강력한 학제간 지식 이해 및 응용 능력을 입증했습니다. Yi-VL 모델은 오픈 소스 LLaVA 아키텍처를 기반으로 하며 ViT(Vision Transformer), 프로젝션 모듈 및 대규모 언어 모델 Yi-34B-Chat 및 Yi-6B-Chat을 포함합니다. ViT는 이미지 인코딩에 사용되며, Projection 모듈은 이미지 특징을 텍스트 특징과 공간적으로 정렬하는 기능을 구현하며, 대규모 언어 모델은 강력한 언어 이해 및 생성 기능을 제공합니다.Yi-VL 모델의 출현은 다중 모달 언어 모델 기술의 새로운 돌파구를 의미하며 강력한 성능과 광범위한 응용 가능성을 기대할 가치가 있습니다. 앞으로도 지속적인 기술 발전으로 Yi-VL 모델은 더 많은 분야에서 중요한 역할을 하고 인공지능 기술의 발전과 적용을 촉진할 것으로 기대됩니다.