大規模言語モデル (LLM) の台頭、特に ChatGPT などのアプリケーションの普及により、人間とコンピューターの対話モデルは完全に変化しました。 LLM は、一貫した包括的なテキストを生成する優れた能力を示しています。しかし、Downcodes の編集者は、LLM が「幻覚」の問題も抱えていることを発見しました。つまり、LLM は本物のように見えるが、架空の、意味のない、またはプロンプトと矛盾するコンテンツを生成します。ハーバード大学の研究者たちはこれについて徹底的な研究を行い、LLMの「幻想」の原因と解決策を明らかにしようとしました。
大規模言語モデル (LLM) の出現、特に ChatGPT などのアプリケーションの人気は、人間とコンピューターの対話の方法を完全に変えました。 一貫性のある包括的なテキストを生成するモデルの能力は印象的です。ただし、LLM はその強力な機能にもかかわらず、「幻覚」、つまり本物のように見えても実際には架空のコンテンツ、無意味なコンテンツ、またはプロンプトと矛盾するコンテンツを生成する傾向があります。
ハーバード大学の研究者は、LLM の「幻覚」現象の詳細な研究を実施し、その根本が LLM の動作原理にあることを発見しました。 LLMは、膨大なテキストデータを機械学習して確率モデルを構築し、単語の共起確率に基づいて次の単語を予測します。 言い換えれば、LLM は言語の意味を実際には理解していませんが、統計的な確率に基づいて予測を行います。
研究者はLLMを「クラウドソーシング」に例えており、LLMが実際に「ネットワークコンセンサス」を出力していると考えています。 Wikipedia や Reddit などのプラットフォームと同様に、LLM は大量のテキスト データから情報を抽出し、最も一般的な回答を生成します。 ほとんどの言語は世界を記述するために使用されるため、LLM によって生成される答えは通常正確です。
ただし、LLM が曖昧なトピック、物議を醸しているトピック、またはコンセンサスに欠けているトピックに遭遇した場合、「錯覚」が発生する可能性があります。 この仮説を検証するために、研究者らは、さまざまなトピックを扱うときのさまざまな LLM のパフォーマンスをテストする一連の実験を設計しました。 実験結果によると、LLM は一般的なトピックを扱う場合には良好なパフォーマンスを発揮しますが、曖昧なトピックや物議を醸すトピックを扱う場合には精度が大幅に低下します。
この研究は、LLM が強力なツールであるにもかかわらず、その精度がトレーニング データの質と量に依存することを示しています。 LLM を使用する場合、特に曖昧なトピックや物議を醸すトピックを扱う場合、その出力は注意して扱う必要があります。 この研究はまた、曖昧で物議を醸すトピックを処理する LLM の能力を向上させ、その出力結果の解釈可能性を向上させる必要性という、LLM の将来の開発の方向性も提供します。
論文アドレス: https://dl.acm.org/doi/pdf/10.1145/3688007
ハーバード大学の研究は、LLM の理解と改善に関する貴重な洞察を提供します。また、特に複雑なトピックや物議を醸すトピックを扱う場合には、LLM を慎重に使用する必要があること、またその出力結果を批判的に評価する必要があることを思い出させます。 LLM の将来の開発方向は、あいまいな情報を処理し、解釈可能性を向上させる能力の向上に焦点を当てる必要があります。 Downcodes の編集者は、この研究が LLM テクノロジーの開発をより信頼できる方向に促進できることを期待しています。