Dark Side of the Moon Company は本日、強化学習テクノロジーに基づいた新しい視覚的思考モデル k1 をリリースし、画像の理解と推論に大きな進歩をもたらしました。 k1 モデルは、エンドツーエンドの画像理解をサポートするだけでなく、思考連鎖テクノロジーを統合し、その適用範囲を物理学や化学などの基礎科学分野に拡張し、複数のベンチマーク テストで世界の主要モデルを上回っています。その革新性は、画像理解と思考能力の統合にあり、ユーザーは外部ツールに頼ることなく画像情報を直接入力して回答を得ることができるため、インタラクション効率とユーザーエクスペリエンスが大幅に向上します。
Dark Side of the Moon は本日、新しいビジュアル思考モデル k1 のリリースを発表しました。このモデルは強化学習テクノロジーに基づいており、エンドツーエンドの画像理解をサポートするだけでなく、思考連鎖テクノロジーを統合し、その機能を数学以外の物理学や化学などのより基礎的な科学分野にも拡張します。ベンチマーク機能テストでは、k1 モデルは OpenAI の o1、GPT-4o、Claude3.5Sonnet などの世界をリードするベンチマーク モデルを上回りました。
新世代モデルは、より詳細な推論ステップの生成を刺激して、高品質の思考チェーンを形成し、複雑なタスクを解決する成功率を大幅に向上させます。画像理解および思考機能に Kimi の k1 モデルを統合することで、ユーザーが入力した画像情報を直接処理し、外部の OCR や追加の視覚モデルに頼ることなく、よりスムーズなインタラクティブなエクスペリエンスをユーザーに提供できます。
k1 モデルの学習は 2 段階に分かれており、まず事前学習によって基本モデルが取得され、これに基づいて強化学習による事後学習が実行されます。基本モデルは OCRBench で 903 という優れたスコアを達成し、MathVista-testmini、MMMU-val、および DocVQA ベンチマークで優れたパフォーマンスを示しました。強化後の学習トレーニングはデータ品質と学習効率の点で最適化され、規模において新たなブレークスルーを達成します。
キミはまた、さまざまな難易度の数学、物理、化学の画像問題をカバーする標準化されたテスト セットである Science Vista を独自に構築しており、業界全体に公開される予定です。 k1 モデルは、配布外の汎化や複雑な問題の成功率に改善の余地があるなど、内部テストでいくつかの限界が示されましたが、視覚的なノイズ シーンでのパフォーマンスは他のモデルよりも優れており、非常に強力な視覚認識能力を示しています。
キミ インテリジェント アシスタントの k1 視覚的思考モデルは、数学の分野で優れた性能を発揮するだけでなく、物理学や化学の分野にも拡張され、幅広い基礎科学能力を実証します。さらに、k1 モデルは、科学者の原稿の内容や背景など、数学以外の問題について説明し推論する一般的な能力を実証しました。
キミ スマート アシスタントは、ユーザーと一緒により大きな世界を探索できることを楽しみにしています。新しい k1 モデルは、最新バージョンの キミ スマート アシスタント モバイル APP または Web バージョンを通じて体験できます。
Kimi の k1 モデルは多くのベンチマーク テストで良好なパフォーマンスを示し、その強力な視覚的思考能力と広範なアプリケーションの見通しを実証しています。まだ改善の余地はありますが、画像認識と科学的質問応答における画期的な進歩は、間違いなく人工知能の分野に新たな開発の推進力をもたらすでしょう。 k1モデルがもたらす新たなインタラクティブ体験をぜひご体験ください!