AIの分野には多くの巨人が存在し、競争は熾烈を極めています。しかし、わずか 10 人で構成される新興企業である Nous Research は、その強力な技術力とオープンソースのコンセプトでテクノロジー巨人の権威に挑戦することに成功しました。新しくリリースされたHermes3モデルは、Llama 3.1に基づいて微調整されており、405Bのパラメータサイズと驚くべきパフォーマンスを備えており、3,300万回以上ダウンロードされており、AI業界で驚異的な製品となっています。この記事では、Hermes3 モデルの優れたパフォーマンス、効率的なトレーニング方法、Nous Research の革新的な精神について詳しく説明します。
わずか 10 人の小さなチームが、テクノロジーの巨人メタの地位に果敢に挑戦しました。これは、ゴリアテを倒すダビデの単なる現実版です。
Nous Research というこのスタートアップは無名ではありません。彼らが発売したばかりのHermes3は、Llama3.1の405Bモデルに基づいて微調整されています。チームの人数は少ないですが、その強さは侮れません。この 10 人のメンバーからなるチームは、Mistral、Yi、Llama などの複数のモデルの微調整に成功しており、3,300 万回以上ダウンロードされており、まさに AI 業界での売れ筋マシンです。
Hermes3 の登場は、AI の世界においては腕を撃たれたようなものです。 FP8 量子化後でも、そのパフォーマンスは依然として驚異的に強力です。この最適化により、モデルの VRAM とディスク要件が大幅に削減されるだけでなく、Hermes3 を単一ノードで実行できるようになります。これは開発者にとって朗報です。
会話能力という点では、Hermes3 はまさにオールラウンダーです。長期記憶でも、複数ラウンドの対話でも、ロールプレイングでも、内なる独白でも、簡単に処理できます。 Llama3.1 の 128K コンテキスト ウィンドウのおかげで、Hermes3 は会話の一貫性を保つことに熟練した外交官です。
しかし、Hermes3 の機能はそれだけではありません。これは、生成されたテキストの品質を洗練された微妙な方法で理解および評価する、従来の言語モデリングを超えた一連の高度な機能を示します。これは、雄弁なスピーカーであるだけでなく、厳格な文章批評家にもなれることを意味します。
さらに驚くべきことは、Hermes3 には、構造化された出力、中間ステップの出力、内部モノローグの生成などのいくつかのエージェント機能も統合されており、透明性の高い意思決定を実現します。これは、AI に透明な脳を装備するようなもので、AI の思考プロセスを覗くことができます。
Hermes3のトレーニングプロセスは、AIの世界では悪魔のトレーニングとも言えます。これは、教師あり微調整 (SFT) と直接設定最適化 (DPO) の 2 つの段階を経ています。チームは SFT データセットのスクリーニングと構築に 5 か月を費やしました。その献身と忍耐力にはただただ畏敬の念を抱かせます。
2023 年に設立され、ニューヨークに本部を置く民間の応用研究グループであるヌース リサーチは、AI の世界における単なる野蛮な侵略者です。彼らはオープンソースの力を強く信じており、クローズドテクノロジーのイノベーションの限界に挑戦することを誓います。同社のスローガンは真っ赤です。私たちは、クローズド テクノロジが常にイノベーションの頂点を占め、代わりに強力なオープン ソース コードを提供するという思い込みに異議を唱えます。
わずか 1 年余りで、Nous Research は 5 つのデータ セットと 89 のモデルをリリースしました。この高い出力は、サイズは重要ではなく、強度が重要であることを世界に宣言しているかのようです。
論文アドレス: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
公式紹介: https://nousresearch.com/freedom-at-the-frontier-hermes-3/
Nous Research と Hermes3 の成功は、オープンソースの力を証明するだけでなく、AI の分野に新たな活力と可能性をもたらします。小規模なチームでも奇跡を起こすことは可能であり、これは間違いなくすべての AI 実践者にとって大きな励みになります。 今後、Nous Research がさらに驚くべき結果をもたらすことを楽しみに待ちましょう。