การกรองข้อมูลเว็บที่ไม่พึงประสงค์โดยอัตโนมัติเพื่ออัปเดตความรู้ LLM
สร้างโดย ปราณีธ วาดลาปติ (@prane-eth)
บันทึก
โปรดติดดาวพื้นที่เก็บข้อมูลเพื่อแสดงการสนับสนุนของคุณ
LLM (Generative AI) เช่น ChatGPT ไม่มีข้อมูลที่อัปเดตล่าสุด สาเหตุที่ไม่อัปเดตข้อมูลล่าสุดโดยอัตโนมัติเนื่องจากมีข้อความที่ไม่ปลอดภัยหรือไม่พึงประสงค์จำนวนมากบนเว็บ
โปรเจ็กต์นี้รวบรวมข้อมูลและกรองข้อความที่ไม่ต้องการโดยอัตโนมัติโดยใช้ AI และ LLM ข้อมูลที่กรองอัตโนมัติสามารถใช้เพื่ออัปเดตความรู้ของ LLM โดยอัตโนมัติ
ภาษาที่รองรับ: ขณะนี้มีเพียงภาษาอังกฤษเท่านั้น (จะเพิ่มภาษาเพิ่มเติมเมื่อมีผู้ร่วมให้ข้อมูล)
มีงานวิจัยตีพิมพ์อยู่ที่ JMCA/2024(3)E121
หากต้องการใช้เอกสารของฉันเป็นข้อมูลอ้างอิง โปรดอ้างอิงตามด้านล่างนี้:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
ตอนนี้ แก้ไขไฟล์ .env
และเพิ่มคีย์ API ของคุณ
เรียกใช้ไฟล์ Data_flagging.ipynb เพื่อรวบรวมและกรองข้อมูลเว็บล่าสุด เรียกใช้ไฟล์ Analytics_and_Filtering.ipynb เพื่อแก้ไขการตั้งค่าสถานะด้วยตนเอง
หลังจากขั้นตอนการกรองแล้วข้อมูลสามารถนำไปใช้กับ LLM ได้ดังที่กล่าวไว้ใน Use_with_LLMs.ipynb
สนใจโครงการเพิ่มเติม เปิดโปรไฟล์: @Pro-GenAI
ยินดีบริจาค! อย่าลังเลที่จะสร้างปัญหาสำหรับรายงานข้อผิดพลาดหรือข้อเสนอแนะ
โปรดสนับสนุนโค้ดโดยเพิ่มตัวกรองและทำให้โค้ดมีประสิทธิภาพมากขึ้น
หากต้องการมีส่วนร่วม ให้ติดดาวพื้นที่เก็บข้อมูลและสร้างปัญหา หากแก้ไม่ได้ผมจะอนุญาตให้ใครก็ตามสร้าง Pull Request ได้
Copyright (c) 2024 ปราณีธ วาดลาปติ
โปรดดูไฟล์ใบอนุญาตสำหรับข้อมูลเพิ่มเติม
รหัสนี้ไม่ได้มีไว้สำหรับใช้ในสภาพแวดล้อมการผลิต รหัสนี้มีวัตถุประสงค์เพื่อการศึกษาและการวิจัยเท่านั้น
ผู้เขียนไม่มีส่วนรับผิดชอบต่อการใช้ในทางที่ผิดหรือความเสียหายที่เกิดจากรหัสนี้ ใช้มันเป็นความเสี่ยงของคุณเอง รหัสมีให้ตามที่เป็นอยู่โดยไม่มีการรับประกันหรือการรับประกันใดๆ
หากมีข้อสงสัยส่วนตัว โปรดดูรายละเอียดการติดต่อของฉันที่นี่: linktr.ee/prane.eth