出典: MIT ニュース
大規模な言語モデルの機能は優れていますが、まだ完璧には程遠いです。これらの AI モデルは、クエリに応じて「幻覚」を起こし、誤った情報や根拠のない情報を生成することがあります。
この幻想的な問題のため、特に医療や金融などの一か八かの環境では、モデル応答は人間のレビュー担当者によって検証される必要があることがよくあります。ただし、検証プロセスでは、モデルによって参照される長いドキュメントを読む必要があることが多く、これは退屈で間違いが発生しやすい作業であるため、一部のユーザーが生成 AI モデルを使用することを思いとどまる可能性があります。
人間の検証者を支援するために、MIT の研究者は、大規模な言語モデルの応答をより迅速に検証できるユーザーフレンドリーなシステムを作成しました。 SymGen と呼ばれるこのツールを使用すると、LLM は、データベース内のセルなど、ソース文書内の特定の場所を直接指す参照を含む応答を生成できます。
ユーザーは、テキスト応答の強調表示された部分にマウスを移動すると、モデルが特定の単語や語句を生成するために使用したデータを確認できます。一方、ハイライトされていない部分は、検査および検証に特に注意が必要な文言を示しています。
「私たちは、人々がより注意を払う必要があるテキストの部分に選択的に焦点を当てることができるようにします。最終的に、SymGen は情報が信頼できるものであることを簡単に再確認できるため、モデルの応答に対する人々の信頼を高めます。」 &Computer Scienceは、SymGen論文の共同筆頭著者である大学院生のシャノン・シェン氏はこう語った。
ユーザー調査を通じて、Shen と彼の共同研究者は、SymGen を使用した検証時間が手動プロセスと比較して約 20% 短縮されることを発見しました。 SymGen は、モデル出力の検証プロセスをより迅速かつ簡単にすることで、臨床記録の生成から金融市場レポートの要約に至るまで、現実のさまざまなアプリケーションで使用される LLM のエラーを特定するのに役立ちます。
この論文の共著者には、共同筆頭著者のルーカス・トロバ・ヘニゲン氏(EECS大学院生)、グッド・データ・イニシアチブの会長であるアニルッダ・“アニ”・ヌルシンハ氏、上級著者のデービッド・ソンタグ氏も含まれる。 MIT ジャミール クリニックのコンピュータ サイエンスのメンバーであり、人工知能研究所 (CSAIL) の臨床機械学習グループの責任者および CSAIL のメンバーであるユン キム助教授も務めています。この研究は最近、言語モデリング会議で発表されました。
記号の参照
検証を支援するために、多くの LLM は外部ドキュメントへの参照を生成し、ユーザー検査のために言語ベースの応答を提供するように設計されています。しかし、こうした検証システムは往々にして後付けであり、大量の引用を精査するために人々が必要とする労力を考慮していない、とシェン氏は述べた。
「生成 AI の目的は、ユーザーがタスクを完了するのにかかる時間を短縮することです。モデルの主張が合理的かどうかを確認するためにこれらのドキュメントを読むのに何時間も費やす必要がある場合、生成されたコンテンツは現実世界のアプリケーションでは役に立たなくなります。 」とシェンさんは言いました。
研究者らは、検証作業を行う人の観点からこの問題に取り組みました。
SymGen ユーザーは、まず、バスケットボールの試合の統計を含む表など、参照として使用できるデータを LLM に提供します。その後、研究者は、このデータから一致概要を生成するなどのタスクを完了するようモデルにすぐに要求せずに、中間ステップを実行します。これらは、モデルに記号形式で応答を生成するよう促します。
このプロンプトでは、モデルが応答内の単語を参照したいときは常に、その情報を含むデータ テーブル内の特定のセルを書き出す必要があります。たとえば、モデルが応答内で「ポートランド トレイル ブレイザーズ」というフレーズを参照したい場合、そのテキストは、それらの単語を含むデータ テーブル内のセルの名前に置き換えられます。
「テキストがシンボリック形式で表示される中間ステップがあるため、非常にきめ細かい参照を実現できます。出力内のテキストの各部分がデータのどの部分に対応するかを明確に示すことができます」と Torroba Hennigen 氏は述べています。
次に、SymGen はルールベースのツールを使用して各参照を解析し、対応するテキストをデータ テーブルからモデルの応答にコピーします。
「そうすれば、それがそのままコピーされたことがわかるので、実際のデータ変数に対応するテキストの部分に間違いがないことを確認できます」とShen氏は付け加えた。
検証を簡素化する
モデルはトレーニング方法により、シンボリック応答を生成できます。大規模な言語モデルはインターネットから大量のデータを受け入れますが、その一部は実際の値を置き換えるコードを含む「プレースホルダー形式」で記録されます。
SymGen は、モデルにシンボリック応答の生成を促すときに、同様の構造を使用します。
「私たちは、LLM の機能を最大限に活用できるように、特定の方法でプロンプトを設計しました」と Shen 氏は付け加えました。
ユーザー調査では、ほとんどの参加者が、SymGen により LLM で生成されたテキストの検証が容易になったと述べています。彼らは、標準的な方法を使用するよりも約 20% 速くモデルの応答を検証しました。
ただし、SymGen の有効性はソース データの品質によって制限されます。 LLM は間違った変数を参照する可能性があり、人間の検証者はこれに気づかない可能性があります。
さらに、ユーザーは、SymGen への入力用にソース データを構造化形式 (テーブルなど) で提供する必要があります。現在、システムは表形式のデータのみを処理します。
研究者たちは今後、任意のテキストやその他のデータ形式を処理できるように SymGen の機能を強化していきます。この機能により、AI が生成した法的文書の概要の特定部分を検証することができます。彼らはまた、医師とともにSymGenをテストし、AIが生成した臨床概要のエラーをどのように特定するかを研究する予定だ。
この研究は、LibERTy Mutual と MIT Intelligent Discovery Initiative から一部資金提供を受けました。