零一萬物發布Yi-VL 多模態語言模型包括兩個版本

作者：Eve Cole 更新時間：2025-01-08 10:32:01

零一萬物發布了其Yi系列多模態語言模型Yi-VL，該模型在圖文理解和對話生成方面展現出卓越性能。 Yi-VL模型在中英文資料集上均取得領先成績，尤其在MMMU基準測試中，Yi-VL-34B以41.6%的準確率超越其他同類模型，展現了其強大的跨學科知識理解和應用能力。本文將深入探討Yi-VL模型的架構、效能及其在多模態領域的重要意義。

零一萬物Yi-VL 多模態語言模型是零一萬物Yi 系列模型家族的新成員，它在圖文理解和對話生成方面具備卓越的能力。 Yi-VL 模型在英文資料集MMMU 和中文資料集CMMMU 上都取得了領先成績，展現了在複雜跨學科任務上的實力。 Yi-VL-34B 在全新多模態基準測試MMMU 中以41.6% 的準確率超越其他多模態大模型，展現了強大的跨學科知識理解和應用能力。 Yi-VL 模型基於開源LLaVA 架構，包含Vision Transformer（ViT）、Projection 模組和大規模語言模型Yi-34B-Chat 和Yi-6B-Chat。 ViT 用於圖像編碼，Projection 模組實現了圖像特徵與文字特徵空間對齊的能力，大規模語言模型提供了強大的語言理解和生成能力。

Yi-VL模型的出現標誌著多模態語言模型技術取得了新的突破，其強大的性能和廣泛的應用前景值得期待。未來，隨著技術的不斷發展，Yi-VL模型有望在更多領域發揮重要作用，推動人工智慧技術的進步和應用。