AutoPureData下載 - AutoPureData原始碼下載

AutoPureData

Ai源碼

1.0.0

下載

自動純數據

自動過濾不需要的網路數據以更新法學碩士知識

由 Praneeth Vadlapati (@prane-eth) 創建

筆記

請為儲存庫加註星標以表示您的支持。

為什麼選擇 AutoPureData？

像 ChatGPT 這樣的 LLM（生成式 AI）沒有最新的更新資訊。不自動更新最新數據的原因是網路上存在大量不安全或不需要的文字。

該計畫旨在使用人工智慧和法學碩士自動收集數據並過濾不需要的文字。自動過濾的數據可用於自動更新法學碩士的知識。

過濾的內容：

不安全內容☣️：有毒、威脅、侮辱、歧視、政治、自殘、宗教、暴力、性、褻瀆、調情、垃圾郵件、詐騙、誤導等
內容來源不可靠？
個人詳細資料？
攻擊？

支援的語言：目前僅英語（當貢獻者可用時將添加更多語言）

？研究論文

已發表的研究論文可在 JMCA/2024(3)E121 取得

？引文

如需使用我的論文作為參考，請引用如下：

 @article { vadlapati2024autopuredata ,
	title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
	author = { {Praneeth Vadlapati} } ,
	journal = { {Journal of Mathematical & Computer Applications} } ,
	volume = { 3 } ,
	number = { 4 } ,
	pages = { 1--4 } ,
	year = { 2024 } ,
	month = { July } ,
	doi = { 10.47363/JMCA/2024(3)E121 } ,
	issn = { 2754-6705 }
}

快速入門

pip install -r requirements.txt
cp .env.example .env

現在，編輯.env檔案並新增您的 API 金鑰。
執行Data_flagging.ipynb檔案來收集和過濾最新的Web資料。執行檔案 Analytics_and_Filtering.ipynb 以手動修正標記。

過濾過程後，資料可以與 LLM 一起使用，如Usage_with_LLMs.ipynb中所述

該檔案將過濾後的資料推送到 Pinecone DB 並將其與 LLM 一起使用。

貢獻

歡迎貢獻！請隨意為任何錯誤報告或建議建立問題。
請透過添加更多過濾器並使程式碼更有效率來為程式碼做出貢獻。
要做出貢獻，請為儲存庫加註星標並建立一個問題。如果我無法解決它，我將允許任何人建立拉取請求。

？執照

版權所有 (c) 2024 Praneeth Vadlapati
請參閱許可證文件以獲取更多資訊。

️免責聲明

該代碼不適用於生產環境。該代碼僅用於教育和研究目的。

作者對本代碼造成的任何誤用或損壞不承擔任何責任。使用它的風險由您自行承擔。該代碼按原樣提供，不提供任何保證或擔保。

注意：結果未使用 Llama 3.1 進行更新，因為使用 Llama 3 達到了相同的精度。

致謝

特別感謝Groq (https://groq.com/) 提供的快速 Llama 3 推理引擎
資料集：HuggingFace FineWeb https://huggingface.co/datasets/HuggingFaceFW/fineweb
不安全文字偵測：Meta Llama Guard 2 https://github.com/meta-llama/PurpleLlama/blob/main/Llama-Guard2/MODEL_CARD.md
使用 LLM 進行不必要的文字偵測：Meta Llama 3 (70B) https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
分析頁面：Gradio https://gradio.app/
向量資料庫：松果 https://www.pinecone.io/