AutoPureData
1.0.0
自動過濾不需要的網路數據以更新法學碩士知識
由 Praneeth Vadlapati (@prane-eth) 創建
筆記
請為儲存庫加註星標以表示您的支持。
像 ChatGPT 這樣的 LLM(生成式 AI)沒有最新的更新資訊。不自動更新最新數據的原因是網路上存在大量不安全或不需要的文字。
該計畫旨在使用人工智慧和法學碩士自動收集數據並過濾不需要的文字。自動過濾的數據可用於自動更新法學碩士的知識。
支援的語言:目前僅英語(當貢獻者可用時將添加更多語言)
已發表的研究論文可在 JMCA/2024(3)E121 取得
如需使用我的論文作為參考,請引用如下:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
現在,編輯.env
檔案並新增您的 API 金鑰。
執行Data_flagging.ipynb檔案來收集和過濾最新的Web資料。執行檔案 Analytics_and_Filtering.ipynb 以手動修正標記。
過濾過程後,資料可以與 LLM 一起使用,如Usage_with_LLMs.ipynb中所述
更多項目請開啟個人檔案: @Pro-GenAI
歡迎貢獻!請隨意為任何錯誤報告或建議建立問題。
請透過添加更多過濾器並使程式碼更有效率來為程式碼做出貢獻。
要做出貢獻,請為儲存庫加註星標並建立一個問題。如果我無法解決它,我將允許任何人建立拉取請求。
版權所有 (c) 2024 Praneeth Vadlapati
請參閱許可證文件以獲取更多資訊。
該代碼不適用於生產環境。該代碼僅用於教育和研究目的。
作者對本代碼造成的任何誤用或損壞不承擔任何責任。使用它的風險由您自行承擔。該代碼按原樣提供,不提供任何保證或擔保。
對於個人疑問,請在此處找到我的聯絡方式:linktr.ee/prane.eth