Vary-toy: ターゲットオブジェクトを簡単に識別するための高レベルの視覚語彙のためのコンパクトで大規模な言語モデル

著者：Eve Cole 更新時間：2025-02-01 02:48:02

MEGVII Technology は、標準 GPU で実行できる高度なモデルである Vary-toy と呼ばれる新しい視覚語彙大規模言語モデルを発売します。このモデルは、視覚語彙の作成を最適化することで画像認識能力を大幅に向上させ、DocVQA、ChartQA、RefCOCO などの複数のベンチマークテストで優れた結果を達成しています。 Vary-toy はサイズが小さいため、リソースに制約のある研究者にとって理想的であり、効率的で使いやすいベースラインモデルを提供します。

MEGVII Technology は、標準 GPU に適した高度な視覚語彙大規模言語モデルである Vary-toy をリリースします。視覚的な語彙の作成を最適化することで、画像認識の向上を目指します。 Vary-toy は、DocVQA、ChartQA、RefCOCO などの複数のベンチマークテストで顕著な結果を達成しました。サイズが小さいため、リソースが限られている研究者にとって実用的なベンチマークになります。研究者らは、さらなる研究と採用を促進するために、コードを一般に公開する予定です。

Vary-toy のリリースは、コンピュータビジョンの分野における MEGVII Technology の高度な技術力を証明するだけでなく、学術界や産業界に貴重なリソースを提供します。今後公開されるコードにより、この分野の進歩と応用がさらに促進されることが期待されます。

Vary-toy: ターゲット オブジェクトを簡単に識別するための高レベルの視覚語彙のためのコンパクトで大規模な言語モデル

Vary-toy: ターゲットオブジェクトを簡単に識別するための高レベルの視覚語彙のためのコンパクトで大規模な言語モデル