研究者
Researcher は、Google と GPT-3 を使用して質問に簡潔かつ正確に回答することで時間を節約します。引用元が含まれているので、出典を調べることができます。
これは、Google や GPT を単独で使用する場合とは異なる検索パラダイムです。 Google では、答えを見つけるためにいくつかの SEO スパム コンテンツに目を通す必要があります。 GPT では、得られた答えが正しいかどうか、またその答えがどこから来たのかを確認することはできません。
研究者は、Google 検索結果の関連セクションを GPT-3 にフィードして概要を生成することで、これらの問題を解決しました。
比較
Web コンテキストを大規模な言語モデルにフィードすることで、精度を向上させ、情報を検証できます。この例では、ChatGPT からの情報を確認する方法がありません。それもあまり具体的ではありません。研究者は、Google のコンテキストに基づいて、引用された情報源とより具体的な情報を提供します。
チャットGPT | 研究者 |
---|
| |
スクリーンショット
技術的なQ&A | おすすめ |
---|
| |
インストール
- git を使用してこのリポジトリのクローンを作成します。
- Python 3.8 以降がインストールされていることを確認してください。 12/22 の時点で、Pytorch はすべてのプラットフォームで Python 3.11 をサポートしていないため、Python 3.10 が推奨されます。
-
cd researcher
実行してリポジトリ フォルダーに移動します。 -
pip install -r requirements.txt
実行して、必要なパッケージをインストールします。 -
settings.py
のOPENAI_KEY
変数に OpenAI API キーを入力します。 -
python app.py
実行してアプリケーションを実行します。デフォルトでは、ポート5000
で実行されます。 - [オプション] デフォルトでは、研究者は Google 検索結果を収集します。これは必ずしも信頼できるわけではありません。より信頼性を高めたい場合は、カスタム検索エンジンを Google に登録してから、次の手順を実行します。
-
settings.py
のSEARCH_KEY
変数に API キーを入力します。 -
SEARCH_ID
にカスタム検索エンジン ID を入力します。 -
SEARCH_METHOD
をapi
に変更します。
使用法
- 検索インターフェイスを確認するには、
http://127.0.0.1:5000
にアクセスしてください。 - 検索クエリを入力し、「検索」をクリックします。質問が最も効果的です。
- クエリによっては、結果が得られるまでに 10 ~ 20 秒かかる場合があります。概要と、その概要の生成に使用されたソースが表示されます。
仕組み
- 最初の検索結果は Google から取得されます
- 各サイトはリクエストを使用してスクレイピングされます
- サイトの HTML はローカルの sqlite データベースに保存されます
- 結果はフィルタリングされ、広告やトラッカーが多すぎるサイトが削除されます
- 各サイトからテキストの塊が抽出され、検索クエリに対してランク付けされます。
- 上位 N 個のテキスト チャンクは、GPT-3 を使用して概要を生成するために使用されます。
- 概要は、その生成に使用されたソースとともに表示されます
よくある質問
- これにはお金がかかりますか?これには OpenAI API が使用されますが、クレジットによっては費用がかかる場合があります。各クエリのコストは約 1/3 セントです。 API モードを使用する場合、Google 検索に基づいて料金がかかる場合もあります。 Google カスタム検索では、1 日あたり 100 件の検索を無料で提供しますが、その後は 1000 件のクエリごとに 5 ドルの料金がかかります。
- なぜ結果が出るまでにこれほど時間がかかるのでしょうか?研究者は検索を実行し、サイトをスクレイピングして関連するコンテキストを取得し、API を呼び出してコンテキストを要約します。これらの操作には長い時間がかかります。一部の設定を調整すると、速度が向上する場合があります。特にチャンク長と結果数。
- 429 エラーが発生するのはなぜですか?デフォルトでは、Researcher は Google の結果を収集します。これを頻繁に実行すると、429 エラーが発生する可能性があります。これを回避するには、API モード (上記で説明) に切り替えます。
- 概要を生成できなかったというエラーが表示されるのはなぜですか? OpenAI API には問題が発生する場合があります。これにより、概要が表示されなくなります。これを修正するには、検索をもう一度実行してください。
今後の改善点
- 検索プロセスを高速化します
- 最適なテキストチャンクを見つけるためのアルゴリズムを改善
- GPT-3 の代わりに自己ホスト型モデルを試してください (おそらく要約用の PEGASUS、または微調整された BLOOM または T5 バリアント)
- GPT-3 に渡す前にテキスト チャンクを要約する