LLM はなぜ数学でいつも正気を失ってしまうのでしょうか? AI の第一人者 Karpathy が 9.9<9.11 について説明する

著者：Eve Cole 更新時間：2024-12-15 17:48:02

大規模言語モデル (LLM) の進歩は目覚ましいものですが、いくつかの単純な問題に関して予期せぬ欠点が見られます。 Andrej Karpathy は、この「ギザギザの知能」現象を鋭く指摘しました。つまり、LLM は複雑なタスクを実行できますが、単純な問題では頻繁に間違いを犯します。これにより、LLM の本質的な欠陥と今後の改善の方向性について深く考えるようになりました。この記事では、これについて詳しく説明し、LLM をより効果的に活用し、その制限を回避する方法を検討します。

最近、「9.11 は 9.9 より大きいのか?」という一見単純な疑問が世界中で広く注目を集めていますが、この問題に関してはほとんどすべての大規模言語モデル (LLM) が間違いを犯しています。この現象は、AI 分野の専門家である Andrej Karpathy 氏の注目を集め、この問題を皮切りに、現在の大型モデル技術の本質的な欠陥と今後の改善の方向性について深く議論しました。

Karpathy 氏はこの現象を「ギザギザの知能」または「ギザギザの知能」と呼び、最先端の LLM は難しい数学的問題を解くなど、さまざまな複雑なタスクを実行できるものの、一見単純なタスクの一部では失敗することを指摘しています。問題に対するパフォーマンスが悪く、この知性の不均衡はノコギリの歯の形に似ています。

たとえば、OpenAI 研究者の Noam Brown 氏は、LLM のパフォーマンスが三目並べゲームで低く、ユーザーが勝ちそうになっている場合でもモデルが正しい判断を下すことができないことを発見しました。 Karpathy 氏は、これはモデルが「不当な」決定を下すためであると考えていますが、Noam 氏は、これはトレーニングデータ内の戦略に関する適切な議論が欠如していることが原因である可能性があると考えています。

もう 1 つの例は、英数字の数量を数えるときに LLM が犯すエラーです。 Llama 3.1 の最新リリースでさえ、単純な質問に対して間違った答えを示しています。 Karpathy 氏は、これは LLM の「自己知識」の欠如に起因すると説明しました。つまり、モデルが自分にできることとできないことを区別できず、その結果、タスクに直面するときにモデルが「自信を持って」しまうのです。

この問題を解決するために、Karpathy 氏は、Meta が発行した Llama3.1 論文で提案されている解決策について言及しました。この論文では、モデルが自己認識を発達させ、事実の知識を追加するだけでは錯覚の問題を根絶できるように、トレーニング後の段階でモデルの調整を行うことを推奨しています。 Llama チームは、「知識検出」と呼ばれるトレーニング方法を提案しました。これは、モデルが理解している質問にのみ回答するように促し、不確実な回答を生成することを拒否します。

Karpathy 氏は、AI の現在の機能にはさまざまな問題があるものの、これらは根本的な欠陥ではなく、実行可能な解決策があると考えています。同氏は、現在の AI トレーニングのアイデアは「人間のラベルを模倣して規模を拡大する」だけであると提案し、AI の知能を向上し続けるには、開発スタック全体でさらに多くの作業を行う必要があると述べました。

問題が完全に解決されるまで、LLM を運用環境で使用する場合は、LLM が得意なタスクに限定し、「ギザギザのエッジ」に注意し、常に人間が関与し続ける必要があります。このようにして、AI の限界によって引き起こされるリスクを回避しながら、AI の可能性をより適切に活用することができます。

全体として、LLM の「ギザギザのインテリジェンス」は現在 AI 分野が直面している課題ですが、克服できないわけではありません。トレーニング方法を改善し、モデルの自己認識を強化し、それを実際のシナリオに注意深く適用することで、LLM の利点をより適切に活用し、人工知能テクノロジーの継続的な開発を促進することができます。