MEGVII Technology 推出名为Vary-toy 的全新视觉词汇大型语言模型,这是一款能够在标准GPU 上运行的高级模型。该模型通过优化视觉词汇的创建,显着提升了图像感知能力,并在DocVQA、ChartQA、RefCOCO 等多个基准测试中取得了优异的成绩。 Vary-toy 的小巧尺寸使其成为资源受限的研究人员的理想选择,为其提供了一个高效易用的基准模型。
MEGVII Technology发布Vary-toy,一款适用于标准GPU的高级视觉词汇大型语言模型。通过优化视觉词汇创建,旨在提高图像感知能力。 Vary-toy在多项基准测试中取得显著成绩,包括DocVQA、ChartQA、RefCOCO等。其小尺寸使其成为资源有限研究人员的实用基准。研究人员计划公开发布代码,推动进一步的研究和采纳。
Vary-toy 的发布,不仅展示了MEGVII Technology 在计算机视觉领域的先进技术实力,也为学术界和工业界提供了宝贵的资源。 未来公开的代码将进一步促进该领域的进步和应用,值得期待。