바람직하지 않은 웹 데이터를 자동 필터링하여 LLM 지식 업데이트
작성자: Praneeth Vadlapati(@prane-eth)
메모
귀하의 지원을 보여주기 위해 저장소에 별표를 표시하십시오.
ChatGPT와 같은 LLM(Generative AI)에는 최신 업데이트 정보가 없습니다. 최신 데이터로 자동 업데이트되지 않는 이유는 웹에 안전하지 않거나 원치 않는 텍스트가 많기 때문입니다.
이 프로젝트는 AI와 LLM을 사용하여 자동으로 데이터를 수집하고 원하지 않는 텍스트를 필터링하는 것입니다. 자동 필터링된 데이터는 LLM 지식을 자동으로 업데이트하는 데 사용될 수 있습니다.
지원되는 언어: 현재는 영어만 지원됩니다. (기여자가 생기면 더 많은 언어가 추가될 예정입니다.)
출판된 연구 논문은 JMCA/2024(3)E121에서 볼 수 있습니다.
제 논문을 참고용으로 사용하려면 아래와 같이 인용해 주세요.
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
이제 .env
파일을 편집하고 API 키를 추가하세요.
Data_flaging.ipynb 파일을 실행하여 최신 웹 데이터를 수집하고 필터링하세요. Analytics_and_Filtering.ipynb 파일을 실행하여 플래그 지정을 수동으로 수정하십시오.
필터링 프로세스 후에는 Usage_with_LLMs.ipynb에 언급된 대로 LLM과 함께 데이터를 사용할 수 있습니다.
더 많은 프로젝트를 보려면 프로필 @Pro-GenAI 를 여세요.
기여를 환영합니다! 버그 보고서나 제안사항이 있으면 자유롭게 문제를 만들어주세요.
더 많은 필터를 추가하고 코드를 더욱 효율적으로 만들어 코드에 기여해 주세요.
기여하려면 저장소에 별표를 표시하고 이슈를 생성하세요. 내가 해결할 수 없다면 누구나 풀 리퀘스트를 생성할 수 있도록 허용하겠습니다.
저작권 (c) 2024 Praneeth Vadlapati
자세한 내용은 LICENSE 파일을 참조하세요.
이 코드는 프로덕션 환경에서 사용하기 위한 것이 아닙니다. 이 코드는 교육 및 연구 목적으로만 사용됩니다.
이 코드로 인해 발생하는 오용이나 손상에 대해 작성자는 책임을 지지 않습니다. 자신의 책임하에 사용하십시오. 코드는 어떠한 보증이나 보장 없이 있는 그대로 제공됩니다.
개인적인 문의 사항이 있는 경우 여기에서 내 연락처 정보를 확인하세요: linktr.ee/prane.eth