Nvidiaは最近、Nemotron-4-Minitron-4BとNemotron-4-Minitron-8Bの2つの新しいモデルを開設し、トレーニング効率に大きなブレークスルーをもたらしました。構造化された剪定と知識蒸留技術により、これら2つのモデルのトレーニングに必要なデータは40倍削減され、コンピューティングパワーのコストは1.8倍削減されました。これは、AIテクノロジーの飛躍を表すだけでなく、AI分野に新しい可能性をもたらし、AIコミュニティに貴重なリソースを提供しています。
従来のAIモデルトレーニングには、多くのデータと構成が必要です。ただし、Nvidiaは、構造化された剪定と知識の蒸留を使用することにより、この需要を大幅に削減しました。具体的には、ゼロからのトレーニングと比較して、新しいモデルに必要なトレーニングトークンデータの40倍削減されており、コンピューティングパワーのコストは1.8倍節約されました。この成果の背後には、Nvidiaの既存のモデルLlama-3.18bの詳細な最適化があります。
構造的剪定は、重要でない重みを除去することによりモデル構造を簡素化するニューラルネットワーク圧縮技術です。ランダムな分岐とは異なり、構造化された分岐は、ニューロン全体または注意ヘッドを除去することにより、GPUやTPUなどのハードウェアの効率的な動作により適しています。
知識の蒸留は、生徒モデルの教師モデルを模倣することにより、パフォーマンスを改善する方法です。 Nvidiaの実践では、Logitベースの知識蒸留により、学生モデルは教師モデルの深い理解を学ぶことができ、トレーニングデータを大幅に削減したとしても、優れたパフォーマンスを維持できます。
構造化された枝と知識の蒸留によって訓練されたMinitron-4BおよびMinitron-8Bモデルは、MMLUで16%増加しており、PerformanceはMistral7b、Gemma7b、Llama-38bなどの有名なモデルに匹敵する可能性があります。この成果は、NVIDIAメソッドの有効性を証明し、大規模なAIモデルのトレーニングと展開の新しい可能性も提供します。
NVIDIAのこのオープンソースの尺度は、AIテクノロジーにおけるリーダーシップの地位を示しているだけでなく、AIコミュニティに貴重なリソースをもたらします。 AIテクノロジーの継続的な進歩により、AIをより効率的でよりスマートな方向に発展させるためのより革新的な方法を見ることを楽しみにしています。
モデルアドレス:
https://huggingface.co/nvidia/nemotron-4-minitron-4b-base
https://huggingface.co/nvidia/nemotron-4-minitron-8b-base
NVIDIAオープンソースの2つの主要なモデルは、AIフィールドの効率を改善するための新しいアイデアを提供し、将来のAIモデルトレーニングコストのさらなる削減とアプリケーションの範囲のさらなる拡大も示しています。 これに基づいたより革新的なアプリケーションを楽しみにしています。