AutoPureData Download – Download AutoPureData Quellcodes

AutoPureData

AI-Quellcode

1.0.0

Herunterladen

Auto Pure Data

Automatisierte Filterung unerwünschter Webdaten zur Aktualisierung des LLM-Wissens

Erstellt von Praneeth Vadlapati (@prane-eth)

Notiz

Bitte markieren Sie das Repository, um Ihre Unterstützung zu zeigen.

Warum AutoPureData?

LLMs (Generative AI) wie ChatGPT verfügen nicht über die neuesten aktualisierten Informationen. Der Grund dafür, dass keine automatische Aktualisierung mit den neuesten Daten erfolgt, ist eine Menge unsicherer oder unerwünschter Texte im Internet.

Bei diesem Projekt geht es darum, die Daten automatisch zu sammeln und unerwünschten Text mithilfe von KI und LLMs zu filtern. Die automatisch gefilterten Daten können verwendet werden, um das Wissen über LLMs automatisch zu aktualisieren.

Was wird gefiltert:

Unsichere Inhalte ☣️: Giftig, Bedrohung, Beleidigung, Diskriminierung, politisch, selbstverletzend, religiös, Gewalt, sexuell, Obszönität, Flirt, Spam, Betrug, irreführend und mehr
Inhalte aus unzuverlässigen Quellen ?: Unsichere Websites und nicht indizierte Domains (die nicht von Suchmaschinen gecrawlt werden)
Persönliche Daten ?: Telefon, Adresse, Kreditkarte, SSN, IP-Adresse und mehr
Angriffe ?️: Gegnerische Angriffsversuche (mit Data Poisoning)

Unterstützte Sprachen: Derzeit nur Englisch (weitere Sprachen werden hinzugefügt, sobald Mitwirkende verfügbar sind)

? Forschungsarbeit

Ein veröffentlichtes Forschungspapier ist unter JMCA/2024(3)E121 verfügbar

? Zitat

Um mein Papier als Referenz zu verwenden, zitieren Sie es bitte wie folgt:

 @article { vadlapati2024autopuredata ,
	title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
	author = { {Praneeth Vadlapati} } ,
	journal = { {Journal of Mathematical & Computer Applications} } ,
	volume = { 3 } ,
	number = { 4 } ,
	pages = { 1--4 } ,
	year = { 2024 } ,
	month = { July } ,
	doi = { 10.47363/JMCA/2024(3)E121 } ,
	issn = { 2754-6705 }
}

Schnellstart

pip install -r requirements.txt
cp .env.example .env

Bearbeiten Sie nun die .env Datei und fügen Sie Ihre API-Schlüssel hinzu.
Führen Sie die Datei Data_flagging.ipynb aus, um die neuesten Webdaten zu sammeln und zu filtern. Führen Sie die Datei Analytics_and_Filtering.ipynb aus, um die Markierung manuell zu korrigieren.

Nach dem Filtervorgang können die Daten mit einem LLM verwendet werden, wie in Usage_with_LLMs.ipynb beschrieben

Diese Datei überträgt die gefilterten Daten an Pinecone DB und verwendet sie mit einem LLM.

Weitere Projekte

Für weitere Projekte öffnen Sie das Profil: @Pro-GenAI

Mitwirken

Beiträge sind willkommen! Sie können jederzeit ein Problem für Fehlerberichte oder Vorschläge erstellen.
Bitte tragen Sie zum Code bei, indem Sie weitere Filter hinzufügen und den Code effizienter gestalten.
Um einen Beitrag zu leisten, markieren Sie das Repository und erstellen Sie ein Problem. Wenn ich es nicht lösen kann, erlaube ich jedem, eine Pull-Anfrage zu erstellen.

? Lizenz

Copyright (c) 2024 Praneeth Vadlapati
Weitere Informationen finden Sie in der LICENSE-Datei.

️ Haftungsausschluss

Der Code ist nicht für die Verwendung in Produktionsumgebungen vorgesehen. Dieser Code dient ausschließlich Bildungs- und Forschungszwecken.

Kein Autor ist für Missbrauch oder Schäden verantwortlich, die durch diesen Code verursacht werden. Die Nutzung erfolgt auf eigene Gefahr. Der Code wird ohne jegliche Garantien oder Gewährleistungen bereitgestellt.

Hinweis: Die Ergebnisse wurden nicht mit Llama 3.1 aktualisiert, da mit Llama 3 die gleiche Genauigkeit erreicht wurde.

Danksagungen

Besonderer Dank geht an Groq (https://groq.com/) für eine schnelle Llama 3-Inferenz-Engine
Datensatz: HuggingFace FineWeb https://huggingface.co/datasets/HuggingFaceFW/fineweb
Erkennung unsicherer Texte: Meta Llama Guard 2 https://github.com/meta-llama/PurpleLlama/blob/main/Llama-Guard2/MODEL_CARD.md
Unerwünschte Texterkennungen mit LLM: Meta Llama 3 (70B) https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md
Analyseseite: Gradio https://gradio.app/
Vektor-DB: Pinecone https://www.pinecone.io/