التصفية الآلية لبيانات الويب غير المرغوب فيها لتحديث المعرفة في LLM
تم الإنشاء بواسطة برانيث فادلاباتي (@prane-eth)
ملحوظة
يرجى وضع نجمة على المستودع لإظهار دعمك.
لا تحتوي LLMs (Generative AI) مثل ChatGPT على أحدث المعلومات المحدثة. السبب وراء عدم التحديث التلقائي بأحدث البيانات هو وجود الكثير من النصوص غير الآمنة أو غير المرغوب فيها عبر الويب.
يهدف هذا المشروع إلى جمع البيانات تلقائيًا وتصفية النصوص غير المرغوب فيها باستخدام الذكاء الاصطناعي وLLMs. يمكن استخدام البيانات التي تمت تصفيتها تلقائيًا لتحديث المعرفة ببرامج LLM تلقائيًا.
اللغات المدعومة: اللغة الإنجليزية فقط في الوقت الحالي (ستتم إضافة المزيد من اللغات عند توفر المساهمين)
تتوفر ورقة بحثية منشورة على JMCA/2024(3)E121
لاستخدام ورقتي كمرجع، يرجى ذكرها على النحو التالي:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
الآن، قم بتحرير ملف .env
وأضف مفاتيح API الخاصة بك.
قم بتشغيل الملف Data_flagging.ipynb لجمع أحدث بيانات الويب وتصفيتها. قم بتشغيل الملف Analytics_and_Filtering.ipynb لتصحيح العلامة يدويًا.
بعد عملية التصفية، يمكن استخدام البيانات مع LLM كما هو مذكور في Usage_with_LLMs.ipynb
لمزيد من المشاريع، افتح الملف الشخصي: @Pro-GenAI
المساهمات هي موضع ترحيب! لا تتردد في إنشاء مشكلة لأية تقارير أو اقتراحات للأخطاء.
يرجى المساهمة في الكود عن طريق إضافة المزيد من المرشحات وجعل الكود أكثر كفاءة.
للمساهمة، قم بتمييز المستودع بنجمة وإنشاء إصدار. إذا لم أتمكن من حلها، سأسمح لأي شخص بإنشاء طلب سحب.
حقوق الطبع والنشر (ج) 2024 برانيث فادلاباتي
الرجاء الرجوع إلى ملف الترخيص لمزيد من المعلومات.
التعليمات البرمجية غير مخصصة للاستخدام في بيئات الإنتاج. هذا الرمز للأغراض التعليمية والبحثية فقط.
لا يتحمل أي مؤلف مسؤولية أي سوء استخدام أو ضرر ناتج عن هذا الرمز. استخدامه على مسؤوليتك الخاصة. يتم توفير الرمز كما هو دون أي ضمانات أو ضمانات.
للاستفسارات الشخصية، يرجى الاطلاع على تفاصيل الاتصال الخاصة بي هنا: linktr.ee/prane.eth