Fantastische datenzentrierte KI
Data-Centric AI ist der Ansatz zur KI-Entwicklung, der den Trainingsdatensatz als Kernstück der Lösung und nicht das Modell betrachtet.
Dieses Repository enthält eine kuratierte Liste großartiger Ressourcen wie Open-Source-Bibliotheken, Tutorials und Artikel, die Ihnen helfen, die Konzepte zu verstehen und Ihre Reise in die datenzentrierte KI-Entwicklung zu beginnen.
Wir legen Wert auf offene Zusammenarbeit und Wissensaustausch, daher empfehlen wir Ihnen, sich nicht nur auf dieses Repository zu beschränken und sich auch andere tolle Projekte wie Andrew Ngs Resources Hub anzusehen.
Datenprofilierung
- YData Profiling – YData Profiling unterstützt sowohl Pandas als auch Spark DataFrames und bietet ein schnelles und unkompliziertes visuelles Datenverständnis.
- SweetViz – SweetViz ist eine Open-Source-Python-Bibliothek, die mit nur zwei Codezeilen wunderschöne Visualisierungen mit hoher Dichte generiert, um EDA (Exploratory Data Analysis) anzukurbeln.
- DataPrep.EDA – DataPrep.EDA ist ein EDA-Tool (Exploratory Data Analysis) in Python, mit dem Sie einen Pandas/Dask-DataFrame mit wenigen Codezeilen in Sekunden verstehen können.
- AutoViz – Visualisieren Sie jeden Datensatz jeder Größe automatisch mit einer einzigen Codezeile.
- Lux – Lux ist eine Python-Bibliothek, die eine schnelle und einfache Datenexploration durch Automatisierung des Visualisierungs- und Datenanalyseprozesses ermöglicht.
- Great Expectations – Great Expectations hilft Datenteams, Pipeline-Schulden durch Datentests, Dokumentation und Profilerstellung zu beseitigen.
- D-Tale – ist eine Open-Source-Python-Autovisualisierungsbibliothek, die Ihnen eine einfache Möglichkeit bietet, Pandas-Datenstrukturen anzuzeigen und zu analysieren. Es lässt sich nahtlos in iPython-Notebooks und Python/Ipython-Terminals integrieren.
- Data Profiler – Der DataProfiler ist eine Python-Bibliothek, die die Datenanalyse, Überwachung und Erkennung sensibler Daten vereinfacht.
- whylogs – whylogs ist der Open-Source-Standard für die Datenprotokollierung. Mithilfe von Datenprofilierungstechniken werden Whylogs-Profile erstellt, die als Protokolle verwendet werden können, um die Überwachung und Beobachtbarkeit für Datenpipelines und ML-Modelle zu ermöglichen
? Synthetische Daten
- YData Synthetic – Strukturierte synthetische Datengeneratoren unter Verwendung generativer gegnerischer Netzwerke speziell für Tabellen- und Zeitreihendaten.
- Synthpop – Ein Tool zur Erstellung synthetischer Versionen von Mikrodaten, die vertrauliche Informationen enthalten, sodass diese sicher für Benutzer zur explorativen Analyse freigegeben werden können.
- DataSynthesizer – DataSynthesizer generiert synthetische Daten, die einen bestimmten Datensatz simulieren. Es wendet Differential-Privacy-Techniken an, um eine starke Datenschutzgarantie zu erreichen.
- SDV – The Synthetic Data Vault (SDV) ist ein Ökosystem aus Bibliotheken zur Generierung synthetischer Daten, das es Benutzern ermöglicht, auf einfache Weise Einzeltabellen-, Multitabellen- und Zeitreihen-Datensätze zu erlernen, um später neue synthetische Daten im gleichen Format zu generieren und statistische Eigenschaften wie der Originaldatensatz.
- Pomegranate – Pomegranate ist ein Paket zum Erstellen probabilistischer Modelle in Python, das aus Geschwindigkeitsgründen in Cython implementiert ist. Die meisten dieser Modelle können Daten abtasten.
- Gretel Synthetics – Das Gretel Synthetics-Paket ermöglicht Entwicklern einen schnellen Einstieg in die Generierung synthetischer Daten durch den Einsatz neuronaler Netze.
- Time-Series-Generator – Mit dem Time-Series-Generator können Entwickler auf generische Weise synthetische Zeitreihendatensätze erstellen, die verschiedenen Trends folgen. Das Ziel besteht darin, nicht sensible Daten für Demolösungen zur Verfügung zu haben und die Wirksamkeit dieser Lösungen zu testen und/oder oder Algorithmen.
- Zpy – Zpy löst das Problem des Mangels an geschäftsspezifischen Datensätzen für auf Computer Vision basierende Anwendungen. Zpy verwendet Python und Blender (ein Open-Source-3D-Grafik-Toolset), um synthetische Datensätze zu erstellen, die für einzigartige Geschäftsfälle geeignet sind.
? Datenkennzeichnung
- LabelImg – LabelImg ist ein grafisches Bildanmerkungstool. Es ist in Python geschrieben und verwendet Qt für seine grafische Oberfläche.
- LabelMe – LabelMe ist ein Bild-Polygonal-Annotationstool, das Python und Qt verwendet.
- TagAnamoly – Kennzeichnungstool zur Anomalieerkennung, speziell für mehrere Zeitreihen (eine Zeitreihe pro Kategorie).
- EchoML – Spielen, visualisieren und kommentieren Sie Ihre Audiodateien
- LabelStudio – Label Studio ist ein Open-Source-Tool zur Datenkennzeichnung. Sie können Datentypen wie Audio, Text, Bilder, Videos und Zeitreihen mit einer einfachen und unkomplizierten Benutzeroberfläche kennzeichnen und in verschiedene Modellformate exportieren.
- Fantastische Open-Source-Tools zur Datenanmerkung und -kennzeichnung – Eine Liste der verfügbaren Open-Source-Tools (sortiert nach Aufgabentyp) für alle, die Daten kennzeichnen möchten. Es werden nur aktiv gewartete Tools aufgeführt.
Datenvorbereitung
- DataFix – DataFix ist ein Python-Tool zum Erkennen und Korrigieren von Verteilungsverschiebungen zwischen einer Referenz und einem Abfragedatensatz. Es erkennt Verschiebungen, lokalisiert die für die Verschiebung verantwortlichen spezifischen Merkmale und korrigiert sie effizient.
Tutorials und Ressourcen
Hier finden Sie möglicherweise eine Liste praktischer Tutorials und anderer Materialien, die wir auf unserer Website und in den Medium-Blogs verwenden: Tutorials und Ressourcen.
- Datenzentrierte künstliche Intelligenz: Eine Umfrage – Diese Umfrage soll den Lesern helfen, sich effizient ein umfassendes Bild der datenzentrierten KI zu machen. Es behandelt verschiedene Aspekte wie die Bedürfnisse, Definitionen und Herausforderungen datenzentrierter KI sowie Techniken zur Trainingsdatenentwicklung, Inferenzdatenentwicklung und Datenpflege. Darüber hinaus organisiert die Umfrage die vorhandene Literatur unter den Gesichtspunkten der Automatisierung und Zusammenarbeit und tabellarisch und analysiert Benchmarks zur Erzielung von Datenexzellenz. Es gibt auch eine Kurzversion.
? Kurse
- MIT-Einführung in datenzentrierte KI – Dieser Kurs behandelt Algorithmen zum Finden und Beheben häufiger Probleme in ML-Daten und zum Erstellen besserer Datensätze, wobei der Schwerpunkt auf Daten liegt, die bei überwachten Lernaufgaben wie der Klassifizierung verwendet werden. Das gesamte in diesem Kurs vermittelte Material ist sehr praxisorientiert und konzentriert sich auf wirkungsvolle Aspekte realer ML-Anwendungen und nicht auf mathematische Details der Funktionsweise bestimmter Modelle. In diesem Kurs können Sie praktische Techniken erlernen, die in den meisten ML-Kursen nicht behandelt werden. Dies wird dazu beitragen, das „Garbage in, Garbage out“-Problem zu mildern, das viele reale ML-Anwendungen plagt. Website | Vorlesungsvideos | Laboraufgaben
? Eine offene Einladung
Wir sind offen für eine Zusammenarbeit! Wenn Sie einen Beitrag leisten möchten, müssen Sie lediglich eine Pull-Anfrage mit relevanten Ressourcen erstellen. Wir würden jede einzelne Pull-Anfrage prüfen.
Wenn Sie diese Ressourcen nützlich fanden, schauen Sie sich gerne unsere Community für datenzentrierte KI an oder klicken Sie hier, um unserem Discord-Server beizutreten. Wir hoffen, auf der anderen Seite Hallo zu sagen!