Vary-toy：高级视觉词汇的紧凑大型语言模型，轻松识别目标对象

作者：Eve Cole 更新时间：2025-02-01 02:48:02

MEGVII Technology 推出名为Vary-toy 的全新视觉词汇大型语言模型，这是一款能够在标准GPU 上运行的高级模型。该模型通过优化视觉词汇的创建，显着提升了图像感知能力，并在DocVQA、ChartQA、RefCOCO 等多个基准测试中取得了优异的成绩。 Vary-toy 的小巧尺寸使其成为资源受限的研究人员的理想选择，为其提供了一个高效易用的基准模型。

MEGVII Technology发布Vary-toy，一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建，旨在提高图像感知能力。 Vary-toy在多项基准测试中取得显著成绩，包括DocVQA、ChartQA、RefCOCO等。其小尺寸使其成为资源有限研究人员的实用基准。研究人员计划公开发布代码，推动进一步的研究和采纳。

Vary-toy 的发布，不仅展示了MEGVII Technology 在计算机视觉领域的先进技术实力，也为学术界和工业界提供了宝贵的资源。未来公开的代码将进一步促进该领域的进步和应用，值得期待。