Automatisierte Filterung unerwünschter Webdaten zur Aktualisierung des LLM-Wissens
Erstellt von Praneeth Vadlapati (@prane-eth)
Notiz
Bitte markieren Sie das Repository, um Ihre Unterstützung zu zeigen.
LLMs (Generative AI) wie ChatGPT verfügen nicht über die neuesten aktualisierten Informationen. Der Grund dafür, dass keine automatische Aktualisierung mit den neuesten Daten erfolgt, ist eine Menge unsicherer oder unerwünschter Texte im Internet.
Bei diesem Projekt geht es darum, die Daten automatisch zu sammeln und unerwünschten Text mithilfe von KI und LLMs zu filtern. Die automatisch gefilterten Daten können verwendet werden, um das Wissen über LLMs automatisch zu aktualisieren.
Unterstützte Sprachen: Derzeit nur Englisch (weitere Sprachen werden hinzugefügt, sobald Mitwirkende verfügbar sind)
Ein veröffentlichtes Forschungspapier ist unter JMCA/2024(3)E121 verfügbar
Um mein Papier als Referenz zu verwenden, zitieren Sie es bitte wie folgt:
@article { vadlapati2024autopuredata ,
title = { {AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge} } ,
author = { {Praneeth Vadlapati} } ,
journal = { {Journal of Mathematical & Computer Applications} } ,
volume = { 3 } ,
number = { 4 } ,
pages = { 1--4 } ,
year = { 2024 } ,
month = { July } ,
doi = { 10.47363/JMCA/2024(3)E121 } ,
issn = { 2754-6705 }
}
pip install -r requirements.txt
cp .env.example .env
Bearbeiten Sie nun die .env
Datei und fügen Sie Ihre API-Schlüssel hinzu.
Führen Sie die Datei Data_flagging.ipynb aus, um die neuesten Webdaten zu sammeln und zu filtern. Führen Sie die Datei Analytics_and_Filtering.ipynb aus, um die Markierung manuell zu korrigieren.
Nach dem Filtervorgang können die Daten mit einem LLM verwendet werden, wie in Usage_with_LLMs.ipynb beschrieben
Für weitere Projekte öffnen Sie das Profil: @Pro-GenAI
Beiträge sind willkommen! Sie können jederzeit ein Problem für Fehlerberichte oder Vorschläge erstellen.
Bitte tragen Sie zum Code bei, indem Sie weitere Filter hinzufügen und den Code effizienter gestalten.
Um einen Beitrag zu leisten, markieren Sie das Repository und erstellen Sie ein Problem. Wenn ich es nicht lösen kann, erlaube ich jedem, eine Pull-Anfrage zu erstellen.
Copyright (c) 2024 Praneeth Vadlapati
Weitere Informationen finden Sie in der LICENSE-Datei.
Der Code ist nicht für die Verwendung in Produktionsumgebungen vorgesehen. Dieser Code dient ausschließlich Bildungs- und Forschungszwecken.
Kein Autor ist für Missbrauch oder Schäden verantwortlich, die durch diesen Code verursacht werden. Die Nutzung erfolgt auf eigene Gefahr. Der Code wird ohne jegliche Garantien oder Gewährleistungen bereitgestellt.
Für persönliche Fragen finden Sie meine Kontaktdaten hier: linktr.ee/prane.eth