ニューヨーク大学の新しい研究により、データ トレーニングにおける大規模言語モデル (LLM) の憂慮すべき脆弱性が明らかになりました。研究によると、トレーニング データのわずか 0.001% を占める非常に少量の誤った情報でも、LLM の精度と信頼性に重大な影響を及ぼし、重大なエラーを引き起こす可能性があります。この発見は、誤った医療情報が患者の安全を直接危険にさらす可能性がある医療分野において特に重要です。この研究はNature Medicine誌に掲載され、医療用途におけるAIの安全性と信頼性について広く懸念を引き起こしている。
最近、ニューヨーク大学の研究チームは、データ トレーニングにおける大規模言語モデル (LLM) の脆弱性を明らかにする研究を発表しました。彼らは、トレーニング データのわずか 0.001% を占める微量の誤った情報であっても、モデル全体に重大なエラーを引き起こす可能性があることを発見しました。この発見は、誤った情報が患者の安全に直接影響を与える可能性がある医療分野にとって特に懸念されるものです。
研究者らは、ジャーナル「Nature Medicine」に掲載された論文で、LLM は良好なパフォーマンスを示しても、そのトレーニング データに偽の情報が注入された場合、これらのモデルは依然として一部のオープンソース評価ベンチマークの影響モデルでトレーニングされていないモデルよりもパフォーマンスが低下する可能性があると指摘しました。同様に良いです。これは、定期的なテストでは、これらのモデルの潜在的なリスクを検出できない可能性があることを意味します。
これを検証するために、研究チームは「The Pile」と呼ばれるトレーニングデータセットで実験を実施し、そこにAIが生成した15万件の偽の医学論文を意図的に追加した。わずか 24 時間でコンテンツが生成され、データセット内のコンテンツの 0.001% を置き換えると、たとえ 100 万個のトレーニング マーカーであっても、有害なコンテンツが 4.8% 増加することが研究で示されました。このプロセスは非常に安価で、わずか 5 ドルかかります。
このデータ ポイズニング攻撃では、モデルの重みに直接接触する必要はありませんが、攻撃者はネットワーク上に有害な情報を公開するだけで LLM の有効性を弱めることができます。研究チームは、この発見は医療分野でAIツールを使用する際の重大なリスクを浮き彫りにしていると強調している。同時に、MyChartなどの一部のAI医療プラットフォームが患者の質問に自動的に応答する際に誤った情報を生成することが多く、患者に迷惑をかけていることを示す関連事例があることにも言及した。
したがって、研究者らはAI開発者や医療提供者に対し、医療LLMを開発する際にこの脆弱性を明確に認識するよう呼び掛けている。彼らは、将来的に安全性が確保されるまで、LLM を診断や治療などの重要なタスクに使用しないよう推奨しています。
ハイライト:
研究によると、わずか 0.001% の誤った情報によって大規模言語モデル (LLM) が無効になる可能性があります。
医療分野では、誤った情報の拡散は患者の安全に重大な影響を与える可能性があります。
研究者らは、安全性が確保されるまでは、診断や治療などの重要な医療業務にLLMを使用しないよう求めている。
この研究結果は、大規模な言語モデルを医療などの重要な分野に適用する前に、安全性と有効性を確保し、潜在的なリスクを回避するために、データセキュリティとモデルの信頼性に関する研究を強化する必要があることを警告しています。