AutoPureData
1.0.0
自动过滤不需要的网络数据以更新法学硕士知识
由 Praneeth Vadlapati (@prane-eth) 创建
笔记
请为存储库加注星标以表示您的支持。
像 ChatGPT 这样的 LLM(生成式 AI)没有最新的更新信息。不自动更新最新数据的原因是网络上存在大量不安全或不需要的文本。
该项目旨在使用人工智能和法学硕士自动收集数据并过滤不需要的文本。自动过滤的数据可用于自动更新法学硕士的知识。
支持的语言:目前仅英语(当贡献者可用时将添加更多语言)
已发表的研究论文可在 JMCA/2024(3)E121 获取
如需使用我的论文作为参考,请引用如下:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
现在,编辑.env
文件并添加您的 API 密钥。
运行Data_flagging.ipynb文件来收集和过滤最新的Web数据。运行文件 Analytics_and_Filtering.ipynb 以手动更正标记。
过滤过程后,数据可以与 LLM 一起使用,如Usage_with_LLMs.ipynb中所述
更多项目请打开个人资料: @Pro-GenAI
欢迎贡献!请随意为任何错误报告或建议创建问题。
请通过添加更多过滤器并使代码更加高效来为代码做出贡献。
要做出贡献,请为存储库加注星标并创建一个问题。如果我无法解决它,我将允许任何人创建拉取请求。
版权所有 (c) 2024 Praneeth Vadlapati
请参阅许可证文件以获取更多信息。
该代码不适用于生产环境。该代码仅用于教育和研究目的。
作者对本代码造成的任何误用或损坏不承担任何责任。使用它的风险由您自行承担。该代码按原样提供,不提供任何保证或担保。
对于个人疑问,请在此处找到我的联系方式:linktr.ee/prane.eth