研究員
研究人員使用 Google 和 GPT-3 簡潔準確地回答問題,節省您的時間。它包含引文,以便您可以查找來源。
這是與單獨使用 Google 或 GPT 不同的搜尋範例。使用 Google,您必須掃描幾個 SEO 垃圾內容才能找到答案。使用 GPT,您無法確定您得到的答案是否正確,或它來自哪裡。
研究人員透過將 Google 搜尋結果中的相關部分輸入 GPT-3 以產生概述來解決這些問題。
比較
透過將網路上下文輸入到大型語言模型中,您可以提高準確性並驗證資訊。在此範例中,您無法驗證來自 ChatGPT 的資訊。它也不是很具體。研究人員根據 Google 的上下文為您提供引用的來源和更具體的資訊。
聊天GPT | 研究員 |
---|
| |
截圖
技術問答 | 推薦 |
---|
| |
安裝
- 使用 git 克隆此儲存庫。
- 確保您已安裝 Python 3.8+。截至 12/22,Pytorch 並不在所有平台上支援 Python 3.11,因此建議使用 Python 3.10。
- 運行
cd researcher
進入存儲庫資料夾。 - 運行
pip install -r requirements.txt
以安裝所需的軟體包。 - 在
settings.py
的OPENAI_KEY
變數中輸入您的 OpenAI API 金鑰。 - 運行
python app.py
來運行應用程式。預設情況下它將在連接埠5000
上運行。 - [可選] 預設情況下,研究員將抓取 Google 搜尋結果。這並不總是可靠的。如果您想要更高的可靠性,請向 Google 註冊自訂搜尋引擎,然後:
- 在
settings.py
的SEARCH_KEY
變數中輸入 API 金鑰。 - 在
SEARCH_ID
中輸入自訂搜尋引擎 ID。 - 將
SEARCH_METHOD
改為api
。
用法
- 造訪
http://127.0.0.1:5000
即可看到搜尋介面。 - 輸入搜尋查詢並點擊“搜尋”。提問效果最好。
- 可能需要 10-20 秒才能取得結果,具體取決於查詢。您將看到摘要以及用於產生摘要的來源。
它是如何運作的
- 最初的搜尋結果來自 Google
- 每個網站都是使用請求進行抓取的
- 網站 HTML 儲存在本機 sqlite 資料庫中
- 過濾結果以刪除廣告或追蹤器過多的網站
- 從每個網站提取文字區塊,並根據搜尋查詢進行排名
- 前 N 個文字區塊用於使用 GPT-3 產生摘要
- 摘要與用於產生摘要的來源一起顯示
常問問題
- 這要花錢嗎?這使用了 OpenAI API,這可能會根據您的積分而收費。每個查詢的成本約為 1/3 美分。如果您使用 API 模式,它也可能根據您的 Google 搜尋付費。 Google 自訂搜索每天提供 100 次免費搜索,那麼每 1000 次查詢將花費 5 美元。
- 為什麼需要這麼長時間才能得到結果?研究人員運行搜索,然後抓取網站以獲取相關上下文,然後呼叫 API 來總結上下文。這些操作需要很長時間。調整一些設定可能會加快速度。特別是塊長度和結果計數。
- 為什麼我會收到 429 錯誤?預設情況下,研究人員會抓取 Google 結果。如果您過於頻繁地執行此操作,可能會收到 429 錯誤。切換到 API 模式(如上所述)可以避免這種情況。
- 為什麼我會收到無法產生摘要的錯誤? OpenAI API 有時會出現問題。這將導致不顯示摘要。只需再次運行搜尋即可解決此問題。
未來的改進
- 加速搜尋過程
- 改進演算法以找到最佳文字區塊
- 嘗試使用自託管模型而不是 GPT-3(也許使用 PEGASUS 進行總結,或微調 BLOOM 或 T5 變體)
- 在傳遞到 GPT-3 之前匯總文字區塊