北京大学と香港科技大学の研究チームは、革新的なトレーニング方法を開発し、8B サイズの医療専門家モデルのパフォーマンスを GPT-4 レベルに向上させることに成功しました。この研究は、継続的な事前トレーニング中の大規模な言語モデルのパフォーマンス変動現象を説明するために「安定性ギャップ」という新しい概念を導入しただけでなく、さらに重要なことに、この問題を解決するための 3 つの効果的な戦略を提案し、オープンソース化しました。医療 AI の分野に革命的な進歩をもたらす Llama-3-Physician-8B モデル。このモデルの医療質問応答タスクにおけるパフォーマンスは、同じ規模のオープンソース モデルをも上回り、GPT-4 のレベルに近く、医療 AI の大きな可能性を示しています。
まず、継続的な事前トレーニング プロセス中に、ターゲット ドメインでのモデルのパフォーマンスが最初に低下し、その後上昇することを発見しました。これはジェット コースターのように刺激的です。この問題を解決するために、彼らは 3 つの戦略を提案しました。 1 つ目は、適切なサイズのデータ サブセットに対して複数ラウンドの事前トレーニングを実行することです。これにより、大規模なデータ セットの 1 ラウンドの事前トレーニングよりも速くパフォーマンスを回復できます。 2 つ目は、複数ラウンドの事前トレーニングで最高品質のサブコーパスを選択することです。最後に、データを混合して事前トレーニングされたデータ分布に近づけることで、モデルをより安定させることができます。
これらの戦略は、医療分野における継続的な事前トレーニングと指示の微調整において顕著な成果を上げ、効果を向上させ、計算量を削減しました。さらに、彼らのオープンソース Llama-3-Physician-8B モデルは、すでに HuggingFace で利用可能です。
この研究の意義はそれだけではありません。また、これらの戦略を使用すると、OpenLLaMa モデルを 4 エポックの高品質の 50 億データでトレーニングするだけで、医療タスクのすべてのベースラインを大幅に上回ることがわかりました。これにより、パフォーマンスが向上するだけでなく、コンピューティング リソースの消費も大幅に削減されます。
さらに印象的なのは、医療質問応答タスクにおける Llama-3-Physician-8B-instruct モデルのパフォーマンスが、同じサイズの他のオープンソース モデルより優れているだけでなく、クローズドソースの GPT-3.5 モデルをも上回っていることです。 GPT-4レベルに近い。これはまさに医療分野における革命です。
この研究は、新しいトレーニング方法を提供するだけでなく、医療分野における大規模言語モデルの大きな可能性を確認することもできます。継続的な事前トレーニングと命令の微調整により、計算コストを削減しながら、特定のフィールドでモデルのパフォーマンスを向上させることができます。これは間違いなく医療業界にとって大きな恩恵となります。
この研究はまた、大規模な言語モデルのトレーニングは一夜にして達成できるものではなく、継続的な最適化と調整が必要であることを思い出させます。 「安定性ギャップ」の概念を導入することで、モデルのトレーニングの問題をよりよく理解して解決できるようになり、モデルが特定の分野でより大きな役割を果たすことができるようになります。これは技術的な進歩であるだけでなく、医療業界に対する深い洞察でもあります。
論文リンク: https://arxiv.org/abs/2406.14833
オープンソースのアドレス: https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct
この研究結果は、医療AI分野の発展の方向性を示唆するものであり、他分野のモデル学習にとっても貴重な経験となる。将来的には、テクノロジーの継続的な進歩に伴い、医療分野における大規模な言語モデルの適用がより広範かつ詳細に行われ、人間の健康にさらに貢献することが期待されます。