AutoPureData 다운로드 - AutoPureData 소스 코드 다운로드

AutoPureData

AI 소스 코드

1.0.0

다운로드

자동 순수 데이터

바람직하지 않은 웹 데이터를 자동 필터링하여 LLM 지식 업데이트

작성자: Praneeth Vadlapati(@prane-eth)

메모

귀하의 지원을 보여주기 위해 저장소에 별표를 표시하십시오.

왜 AutoPureData인가?

ChatGPT와 같은 LLM(Generative AI)에는 최신 업데이트 정보가 없습니다. 최신 데이터로 자동 업데이트되지 않는 이유는 웹에 안전하지 않거나 원치 않는 텍스트가 많기 때문입니다.

이 프로젝트는 AI와 LLM을 사용하여 자동으로 데이터를 수집하고 원하지 않는 텍스트를 필터링하는 것입니다. 자동 필터링된 데이터는 LLM 지식을 자동으로 업데이트하는 데 사용될 수 있습니다.

필터링되는 항목:

안전하지 않은 콘텐츠 ☣️: 독성, 위협, 모욕, 차별, 정치적, 자해, 종교적, 폭력, 성적인, 욕설, 희롱, 스팸, 사기, 오해의 소지가 있는 콘텐츠 등
신뢰할 수 없는 출처의 콘텐츠 ?: 안전하지 않은 웹사이트 및 색인이 생성되지 않은 도메인(검색 엔진에서 크롤링하지 않음)
개인정보 : 전화번호, 주소, 신용카드, SSN, IP 주소 등
공격 ?️: 적대적 공격 시도(데이터 중독 포함)

지원되는 언어: 현재는 영어만 지원됩니다. (기여자가 생기면 더 많은 언어가 추가될 예정입니다.)

? 연구 논문

출판된 연구 논문은 JMCA/2024(3)E121에서 볼 수 있습니다.

? 소환

제 논문을 참고용으로 사용하려면 아래와 같이 인용해 주세요.

 @article { vadlapati2024autopuredata ,
	title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
	author = { {Praneeth Vadlapati} } ,
	journal = { {Journal of Mathematical & Computer Applications} } ,
	volume = { 3 } ,
	number = { 4 } ,
	pages = { 1--4 } ,
	year = { 2024 } ,
	month = { July } ,
	doi = { 10.47363/JMCA/2024(3)E121 } ,
	issn = { 2754-6705 }
}

빠른 시작

pip install -r requirements.txt
cp .env.example .env

이제 .env 파일을 편집하고 API 키를 추가하세요.
Data_flaging.ipynb 파일을 실행하여 최신 웹 데이터를 수집하고 필터링하세요. Analytics_and_Filtering.ipynb 파일을 실행하여 플래그 지정을 수동으로 수정하십시오.

필터링 프로세스 후에는 Usage_with_LLMs.ipynb에 언급된 대로 LLM과 함께 데이터를 사용할 수 있습니다.

이 파일은 필터링된 데이터를 Pinecone DB에 푸시하고 LLM과 함께 사용합니다.

더 많은 프로젝트

더 많은 프로젝트를 보려면 프로필 @Pro-GenAI 를 여세요.

기여

기여를 환영합니다! 버그 보고서나 제안사항이 있으면 자유롭게 문제를 만들어주세요.
더 많은 필터를 추가하고 코드를 더욱 효율적으로 만들어 코드에 기여해 주세요.
기여하려면 저장소에 별표를 표시하고 이슈를 생성하세요. 내가 해결할 수 없다면 누구나 풀 리퀘스트를 생성할 수 있도록 허용하겠습니다.

? 특허

️ 부인 성명

이 코드는 프로덕션 환경에서 사용하기 위한 것이 아닙니다. 이 코드는 교육 및 연구 목적으로만 사용됩니다.

이 코드로 인해 발생하는 오용이나 손상에 대해 작성자는 책임을 지지 않습니다. 자신의 책임하에 사용하십시오. 코드는 어떠한 보증이나 보장 없이 있는 그대로 제공됩니다.

참고: Llama 3을 사용하여 동일한 정확도를 달성했으므로 결과는 Llama 3.1을 사용하여 업데이트되지 않았습니다.

감사의 말

빠른 Llama 3 추론 엔진을 제공해 주신 Groq (https://groq.com/)에게 특별히 감사드립니다.
데이터세트: HuggingFace FineWeb https://huggingface.co/datasets/HuggingFaceFW/fineweb
안전하지 않은 텍스트 감지: Meta Llama Guard 2 https://github.com/meta-llama/PurpleLlama/blob/main/Llama-Guard2/MODEL_CARD.md
LLM을 사용한 원치 않는 텍스트 감지: Meta Llama 3 (70B) https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
분석 페이지: Gradio https://gradio.app/
벡터 DB : 솔방울 https://www.pinecone.io/