Filtrage automatisé des données Web indésirables pour mettre à jour les connaissances LLM
Créé par Praneeth Vadlapati (@prane-eth)
Note
Veuillez mettre en vedette le référentiel pour montrer votre soutien.
Les LLM (Generative AI) comme ChatGPT ne disposent pas des dernières informations mises à jour. La raison pour laquelle la mise à jour automatique avec les données les plus récentes n'est pas effectuée est due à la grande quantité de textes dangereux ou indésirables sur le Web.
Ce projet consiste à collecter automatiquement les données et à filtrer les textes indésirables à l'aide de l'IA et des LLM. Les données auto-filtrées peuvent être utilisées pour mettre à jour automatiquement les connaissances des LLM.
Langues prises en charge : uniquement l'anglais pour l'instant (d'autres langues seront ajoutées lorsque des contributeurs seront disponibles)
Un document de recherche publié est disponible sur JMCA/2024(3)E121.
Pour utiliser mon article à titre de référence, veuillez le citer comme ci-dessous :
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
Maintenant, modifiez le fichier .env
et ajoutez vos clés API.
Exécutez le fichier Data_flagging.ipynb pour collecter et filtrer les dernières données Web. Exécutez le fichier Analytics_and_Filtering.ipynb pour corriger manuellement le signalement.
Après le processus de filtrage, les données peuvent être utilisées avec un LLM comme mentionné dans Usage_with_LLMs.ipynb
Pour plus de projets, ouvrez le profil : @Pro-GenAI
Les contributions sont les bienvenues ! N'hésitez pas à créer un problème pour tout rapport de bug ou suggestion.
Veuillez contribuer au code en ajoutant plus de filtres et en rendant le code plus efficace.
Pour contribuer, démarrez le référentiel et créez un problème. Si je ne parviens pas à le résoudre, j'autoriserai n'importe qui à créer une pull request.
Copyright (c) 2024 Praneeth Vadlapati
Veuillez vous référer au fichier LICENSE pour plus d'informations.
Le code n'est pas destiné à être utilisé dans des environnements de production. Ce code est uniquement destiné à des fins éducatives et de recherche.
Aucun auteur n'est responsable de toute mauvaise utilisation ou dommage causé par ce code. Utilisez-le à vos propres risques. Le code est fourni tel quel sans aucune garantie ni garantie.
Pour des questions personnelles, veuillez trouver mes coordonnées ici : linktr.ee/prane.eth