アレン人工知能研究所 (AI2) がリリースした最新の Tülu3 シリーズ モデルは、オープンソース言語モデルの分野に目覚ましい進歩をもたらしました。 Tülu3 はパフォーマンスが GPT-4o-mini などのクローズドソース モデルに匹敵するだけでなく、さらに重要なことに、完全にオープンソースであり、オープン化を促進するために不可欠な包括的なトレーニング データ、コード、トレーニング レシピ、評価フレームワークを提供します。ソース モデルの開発は画期的な意味を持ちます。これは、有害な情報の生成や指示に従うことの難しさなど、従来の事前トレーニングモデルの実用化に存在する多くの問題を解決し、人工知能分野の研究と応用に新たな可能性をもたらします。
人工知能の分野では、トレーニング後のテクノロジーがモデルのパフォーマンスを向上させる重要な手段となりつつあります。最近、アレン人工知能研究所 (AI2) は Tülu3 シリーズのモデルをリリースしました。これは、GPT-4o-mini などのクローズド ソース モデルに匹敵するパフォーマンスを備えた完全にオープンソースの高度な言語モデルです。 Tülu3 には、モデル データ、コード、トレーニング レシピが含まれているだけでなく、オープンソース モデルのポストトレーニング テクノロジの開発を促進することを目的とした評価フレームワークも提供されています。
従来、事前トレーニングされたモデルだけでは実際のアプリケーションのニーズを満たすには効果的ではないことが多く、有毒または危険な情報が生成される可能性があり、人間の指示に従うのが困難です。したがって、指導の微調整やヒューマンフィードバック学習などのトレーニング後の段階が特に重要です。ただし、トレーニング後のプロセスを最適化する方法は依然として技術的な問題であり、特にモデルの 1 つの能力を向上させる場合、他の能力に影響を与える可能性があります。
この問題を克服するために、大手企業はトレーニング後の手法の複雑さを増し、複数ラウンドのトレーニングを試したり、人工データと合成データを組み合わせたりしていますが、ほとんどの手法は依然としてクローズドソースです。対照的に、Tülu3 シリーズのリリースは、オープンソース モデルとクローズド ソース モデル間のパフォーマンスのギャップを打ち破り、新しいトレーニングのアイデアをもたらしました。
Tülu3 のトレーニング プロセスは、データ構築、教師あり微調整、好みの調整、検証可能な報酬を伴う強化学習の 4 つの段階に分かれています。
まず、研究者はモデルのコアスキルに焦点を当て、人工データと合成データを組み合わせてトレーニングデータを構築します。
2 番目に、モデルが特定のスキルに関して他の最先端のモデルと同様に機能することを保証するために、監視付き微調整が実行されます。
3 番目に、直接優先最適化手法を使用して、モデルの全体的なパフォーマンスをさらに向上させます。最後に、検証可能な報酬強化学習の革新的な方法が導入され、モデルが検証可能な結果でタスクをより適切に完了できるようになります。
Tülu3 モデルは Llama3.1 に基づいて構築されており、推論、数学、プログラミング、命令追従などの分野で優れたパフォーマンスを発揮します。他のオープンソースおよびクローズドソース モデルと比較して、Tülu3 の包括的な機能は複数のベンチマークで良好なパフォーマンスを示し、ポスト オープンソース トレーニング テクノロジにおける大きな進歩を示しています。
論文リンク: https://allenai.org/papers/tulu-3-report.pdf
デモ:https://playground.allenai.org/
ハイライト:
? Tülu3 は AI2 によって開始されたオープンソース言語モデルで、GPT-4o-mini などのクローズド ソース モデルと同等のパフォーマンスを備えています。
トレーニング後のテクノロジーは非常に重要であり、実際のアプリケーションでモデルのパフォーマンスを効果的に向上させることができます。
Tülu3 の革新的なトレーニング プロセスは、データ構築、教師あり微調整、好みの調整、検証可能な報酬強化学習の 4 つの段階に分かれています。
Tülu3 のオープンソースの性質により、研究者はそのトレーニング方法を深く研究し、これに基づいて改善や革新を行うことができ、これによりオープンソース言語モデルの開発が大幅に促進されます。多くの分野での優れたパフォーマンスは、オープンソース モデルが将来的により重要な役割を果たすことを示しています。 Tülu3は人工知能技術の普及と応用をさらに促進できると期待されています。