Téléchargement AutoPureData - Téléchargement du code source AutoPureData

AutoPureData

Code Source AI

1.0.0

Télécharger

Données pures automatiques

Filtrage automatisé des données Web indésirables pour mettre à jour les connaissances LLM

Créé par Praneeth Vadlapati (@prane-eth)

Note

Veuillez mettre en vedette le référentiel pour montrer votre soutien.

Pourquoi AutoPureData ?

Les LLM (Generative AI) comme ChatGPT ne disposent pas des dernières informations mises à jour. La raison pour laquelle la mise à jour automatique avec les données les plus récentes n'est pas effectuée est due à la grande quantité de textes dangereux ou indésirables sur le Web.

Ce projet consiste à collecter automatiquement les données et à filtrer les textes indésirables à l'aide de l'IA et des LLM. Les données auto-filtrées peuvent être utilisées pour mettre à jour automatiquement les connaissances des LLM.

Ce qui est filtré :

Contenu dangereux ☣️ : toxique, menace, insulte, discrimination, politique, automutilation, religieux, violence, sexuel, grossièreté, flirt, spam, arnaque, trompeur, etc.
Contenu provenant de sources peu fiables ? : sites Web dangereux et domaines non indexés (qui ne sont pas explorés par les moteurs de recherche)
Données personnelles ? : téléphone, adresse, carte de crédit, SSN, adresse IP, etc.
Attaques ?️ : Tentatives d'attaques contradictoires (avec Data Poisoning)

Langues prises en charge : uniquement l'anglais pour l'instant (d'autres langues seront ajoutées lorsque des contributeurs seront disponibles)

? Document de recherche

Un document de recherche publié est disponible sur JMCA/2024(3)E121.

? Citation

Pour utiliser mon article à titre de référence, veuillez le citer comme ci-dessous :

 @article { vadlapati2024autopuredata ,
	title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
	author = { {Praneeth Vadlapati} } ,
	journal = { {Journal of Mathematical & Computer Applications} } ,
	volume = { 3 } ,
	number = { 4 } ,
	pages = { 1--4 } ,
	year = { 2024 } ,
	month = { July } ,
	doi = { 10.47363/JMCA/2024(3)E121 } ,
	issn = { 2754-6705 }
}

Démarrage rapide

pip install -r requirements.txt
cp .env.example .env

Maintenant, modifiez le fichier .env et ajoutez vos clés API.
Exécutez le fichier Data_flagging.ipynb pour collecter et filtrer les dernières données Web. Exécutez le fichier Analytics_and_Filtering.ipynb pour corriger manuellement le signalement.

Après le processus de filtrage, les données peuvent être utilisées avec un LLM comme mentionné dans Usage_with_LLMs.ipynb

Ce fichier pousse les données filtrées vers Pinecone DB et les utilise avec un LLM.

Plus de projets

Pour plus de projets, ouvrez le profil : @Pro-GenAI

Contribuer

Les contributions sont les bienvenues ! N'hésitez pas à créer un problème pour tout rapport de bug ou suggestion.
Veuillez contribuer au code en ajoutant plus de filtres et en rendant le code plus efficace.
Pour contribuer, démarrez le référentiel et créez un problème. Si je ne parviens pas à le résoudre, j'autoriserai n'importe qui à créer une pull request.

? Licence

Copyright (c) 2024 Praneeth Vadlapati
Veuillez vous référer au fichier LICENSE pour plus d'informations.

️ Clause de non-responsabilité

Le code n'est pas destiné à être utilisé dans des environnements de production. Ce code est uniquement destiné à des fins éducatives et de recherche.

Aucun auteur n'est responsable de toute mauvaise utilisation ou dommage causé par ce code. Utilisez-le à vos propres risques. Le code est fourni tel quel sans aucune garantie ni garantie.

Remarque : Les résultats n'ont pas été mis à jour avec Llama 3.1, car la même précision a été obtenue avec Llama 3.

Remerciements

Un merci spécial à Groq (https://groq.com/) pour un moteur d'inférence rapide Llama 3
Ensemble de données : HuggingFace FineWeb https://huggingface.co/datasets/HuggingFaceFW/fineweb
Détections de texte non sécurisées : Meta Llama Guard 2 https://github.com/meta-llama/PurpleLlama/blob/main/Llama-Guard2/MODEL_CARD.md
Détections de textes indésirables à l'aide de LLM : Meta Llama 3 (70B) https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
Page d'analyse : Gradio https://gradio.app/
Base de données vectorielle : Pinecone https://www.pinecone.io/