Alibaba Cloudは最近、Tongyi Qianwen Big Modelの新しい視覚モデルであるQWEN2.5 -VLをリリースし、3B、7B、72Bの3つの異なるサイズバージョンを開設しました。この動きは、QWEN2.5-VL-72Bのフラッグシップバージョンの分野での大きなブレークスルーであり、13の権威あるレビューで視覚的な理解チャンピオンシップを獲得しています。 QWEN2.5-VLは、強力な画像理解機能を備えているだけでなく、1時間以上のビデオ理解をサポートしています。購読など。
Alibaba Cloud Tongyi Qianwenは、新しい視覚モデルQWEN2.5-VLを開設し、3B、7B、72Bで3つのサイズのバージョンを発売しました。
その中で、フラッグシップQWEN2.5-VL-72Bは、GPT-4OとClaude3.5を超えて、13の権威あるレビューで視覚的理解チャンピオンシップを獲得しました。 Alibaba Cloudは、新しいQWEN2.5-VLが画像コンテンツをより正確に解析し、1時間以上のビデオ理解をサポートできることを公式に紹介しました。このモデルは、ビデオ内の特定のイベントを検索し、ビデオのさまざまな期間のキーポイントを要約することで、ユーザーがビデオからキー情報を抽出するのに迅速かつ効率的に役立ちます。
さらに、QWEN2.5-VLは、指定された友人に祝福を送信するなど、微調整せずに携帯電話やコンピューターを制御できる視覚エージェントに変換できます。予約待ち。 QWEN2.5-VLは、花、鳥、魚、昆虫などの一般的なオブジェクトを識別するだけでなく、画像のテキスト、チャート、アイコン、グラフィックス、レイアウトを分析します。 Alibaba Cloudはまた、QWEN2.5-VLのOCR認識機能を改善し、マルチシーン、多言語、多方向のテキスト認識とテキストのポジショニング機能を強化しました。
同時に、資格レビュー、財務、商業のデジタルおよびインテリジェントなニーズの増大を満たすために、情報抽出能力が大幅に強化されています。
ポイント:
Alibaba Cloud Tongyi QianwenオープンソースQWEN2.5-VL、3B、7B、72Bの3つのバージョンを発売しました。
QWEN2.5-VL-72Bは、視覚的理解評価でGPT-4OおよびCLAUDE3.5を上回ります。
QWEN2.5-VLは、1時間以上のビデオ理解をサポートし、OCR認識機能を高めます。
QWEN2.5-VLのオープンソースは、AIビジョンの発展を大いに促進し、あらゆる生活に革新的なアプリケーションの可能性をもたらします。その強力なパフォーマンスと幅広いアプリケーションの見通しは、間違いなく人工知能技術のさらなる開発と普及を促進するでしょう。