? Open-Source-Tools zur Datenanmerkung und -kennzeichnung
Bei ZenML glauben wir, dass Annotations- und Beschriftungsworkflows ein zentraler Bestandteil des maschinellen Lernlebenszyklus sind. Da es sich um ein Open-Source-Tool handelt, wollten wir die Vielfalt der verfügbaren Tools hervorheben und anerkennen, mit denen Sie Ihre Arbeitsabläufe datenzentrierter gestalten können. Wir hatten drei Kernkriterien, um zu entscheiden, ob ein bestimmtes Tool in die Liste aufgenommen werden konnte:
- Das Tool verfügt über eine Open-Source-Lizenz.
- Das Tool wird aktiv gepflegt.
- Das Werkzeug ist funktionsfähig und zweckmäßig.
Wir freuen uns über Beiträge zu dieser Liste. Wenn Sie also ein Tool kennen, das wir übersehen haben, oder wenn Sie selbst eines erstellt haben, erstellen Sie bitte eine PR!
Nutzen Sie diese Tools oder möchten Sie eines zu Ihrem MLOps-Stack hinzufügen? Bei ZenML suchen wir nach Designpartnerschaften und Zusammenarbeit, um die Integrationen und Arbeitsabläufe rund um die Verwendung von Annotationen im MLOps-Lebenszyklus zu entwickeln. Wenn Sie mehr erfahren möchten, treten Sie bitte unserem Slack bei und hinterlassen Sie uns eine Nachricht!
Inhalt
- Multimodal / Multidomäne
- Text
- Bilder
- Audio
- Video
- Zeitreihen
- Andere
Multimodal / Multidomäne
Name | Beschreibung | Lizenz |
---|
Acharya | Ein datenzentriertes MLOps-Tool für Ihre Projekte zur Erkennung benannter Entitäten | ? |
Adala | Ein autonomes Daten-(Kennzeichnungs-)Agent-Framework. | Apache-2 |
Klassifikation | Eine umfassende Open-Source-Datenanmerkungsplattform | Apache-2 |
Computer Vision Annotation Tool (CVAT) | Ein kostenloses, interaktives Online-Tool zur Video- und Bildanmerkung für Computer Vision | MIT |
Datenannotator für maschinelles Lernen (DAML) | Eine Anwendung, die Teams für maschinelles Lernen dabei unterstützt, die Erstellung und Verwaltung von Anmerkungen zu erleichtern | Apache-2 |
DataGym | Open-Source-Anmerkungs- und Beschriftungstool für Bild- und Video-Assets | MIT |
Diffgram | Trainingsdaten (Datenbeschriftung, Anmerkung, Workflow) für alle Datentypen (Bild, Video, 3D, Text, Geo, Audio usw.) im Maßstab | ELv2 |
Schweben | Erkunden und beschriften Sie eine Karte mit Rohdaten. Verarbeitet Text, Audio und Bilder. | MIT |
Etikettenstudio | Ein Tool zur Beschriftung und Annotation von Daten mehrerer Typen mit standardisiertem Ausgabeformat | Apache-2 |
Taube | Ein einfaches Widget, mit dem Sie schnell und bequem von Ihrem Jupyter-Notizbuch aus einen Datensatz unbeschrifteter Beispiele mit Anmerkungen versehen können | Apache-2 |
QSL: Schneller und einfacher Etikettierer | Ein schnelles und einfaches Tool zum Beschriften von Bildern, Videos und Zeitreihendaten direkt aus Jupyter | MIT |
Shoonya | Plattform zum Kommentieren und Beschriften von Daten im großen Maßstab | MIT |
Tator | Webplattform für Videoanalysen | AGPL-3 |
TornadoAi | Ein Human-in-the-Loop-Framework für maschinelles Lernen | AGPL-3 |
Universelles Datentool | Eine Web-/Desktop-App zum Bearbeiten und Kommentieren von Bildern, Text, Audio und Dokumenten sowie zum Anzeigen und Bearbeiten aller im erweiterbaren .udt.json- und .udt.csv-Standard definierten Daten | MIT |
VGG Image Annotator (VIA) | Eine eigenständige Bildannotator-Anwendung, verpackt als einzelne HTML-Datei (< 400 KB), die auf den meisten modernen Webbrowsern läuft | BSD-2 |
VIAME | Video- und Bildanalyse für mehrere Umgebungen | Brauch |
Xtreme1 | Eine All-in-one-Datenbeschriftungs- und Annotationsplattform für multimodales Datentraining und unterstützt 3D-LiDAR-Punktwolke, Bild und LLM | Apache-2 |
Text
Name | Beschreibung | Lizenz |
---|
Anmerkungslabor | Ein in spark-nlp enthaltenes NLP-Anmerkungstool | Apache-2 |
Argilla | Ein produktionsbereites Python-Framework zum Erkunden, Kommentieren und Verwalten von Daten in NLP-Projekten | Apache-2 |
Schüttgut | Bulk ist ein schnelles Entwicklertool zum Anbringen einiger Massenetiketten | MIT |
CoreNLP | Eine Java-Suite der wichtigsten NLP-Tools | GPL-3 |
DatenQA | Beschriftungsplattform für Text mit schwacher Aufsicht | GPL-3 |
doccano | Ein Open-Source-Textanmerkungstool, das Textklassifizierung, Sequenzkennzeichnung und Sequenz-zu-Sequenz-Aufgaben unterstützt | MIT |
FLAT - Linguistisches Anmerkungstool von FoLiA | Eine webbasierte Umgebung für sprachliche Anmerkungen, die auf dem FoLiA-Format basiert, einem XML-basierten Format für sprachliche Anmerkungen | GPL-3 |
Beginn | Eine semantische Annotationsplattform, die intelligente Annotationsunterstützung und Wissensmanagement bietet | Apache-2 |
knode | Knodle (wissensüberwachtes Deep Learning Framework) | Apache-2 |
Markup | Ein webbasiertes Dokumentanmerkungstool, unterstützt von GPT-4 | Unbekannt |
NER-Annotator für Spacy | Mit NER Annotator für SpaCy können Sie Trainingsdaten zum Erstellen eines benutzerdefinierten NER-Modells mit benutzerdefinierten Tags erstellen. | MIT |
NPLM | Rauschendes Teiletikettenmodell (NPLM) | N / A |
Kartoffel | Ein Anmerkungs-Framework mit über 20 Vorlagen, bearbeitbarer Benutzeroberfläche, Qualitätskontrolle, Datenverwaltung und der Option, eine Umfrage für Crowdsourcing hinzuzufügen | PolyForm-Schild |
Raffinerie | Die Open-Source-Option des Datenwissenschaftlers zum Skalieren, Bewerten und Verwalten von Daten in natürlicher Sprache. | Apache-2 |
Schiefer | Ein superleichtes Anmerkungstool für Experten: Beschriften Sie Text in einem Terminal nur mit Python | ISC |
SCHLAU | Ein Tool zum Erstellen gekennzeichneter Trainingsdatensätze für überwachte maschinelle Lernaufgaben in NLP | MIT |
SpaCy-Annotator | Spacy NER-Annotator mit ipywidgets | N / A |
Kleiner Text | Aktives Lernen zur Textklassifizierung | MIT |
Schnorchel | Erstellen und verwalten Sie Trainingsdaten programmgesteuert | Apache-2 |
schwanken | Skweak: Schwache Aufsicht für NLP | MIT |
TALEN | Eine Möglichkeit, Anmerkungen für NER zu erstellen | Brauch |
Thema | Minimalistisches CLI-Beschriftungstool zur Textklassifizierung | MIT |
YEDDA | Ein leichtes, kollaboratives Tool zur bereichsübergreifenden Annotation von Texten | Apache-2 |
Wiesel | WeaSEL: Schwach überwachtes End-to-End-Lernen | Apache-2 |
Bilder
Name | Beschreibung | Lizenz |
---|
3D-Slicer | Visualisierung, Verarbeitung, Segmentierung, Registrierung und Analyse von medizinischen, biomedizinischen und anderen 3D-Bildern und -Netzen | BSD |
Kommentieren Sie das Labor | Vereinfachung der Bildanmerkung | MIT |
Annotorisch | Eine JavaScript-Bibliothek für Bildanmerkungen | BSD-3 |
AnyLabeling | Mühelose KI-gestützte Datenkennzeichnung mit KI-Unterstützung von YOLO, Segment Anything, MobileSAM | GPL-3 |
Autodestillation | Bilder zur Schlussfolgerung ohne Beschriftung (verwenden Sie Basismodelle, um überwachte Modelle zu trainieren) | Apache-2 |
bbox-visualizer | Machen Sie das Zeichnen und Beschriften von Begrenzungsrahmen zum Kinderspiel | MIT |
Begrenzungsrahmen-Editor | Eine JavaFX-Desktopanwendung zum Erstellen von Bildobjektanmerkungen mit Begrenzungsrahmen | GPL-3 |
CATMAID | Das Collaborative Annotation Toolkit für riesige Bilddatenmengen | GPL-3 |
COCO-Annotator | Ein webbasiertes Bildsegmentierungstool zur Objekterkennung, Lokalisierung und Schlüsselpunkten | MIT |
DeepLabel | Ein plattformübergreifendes Desktop-Bildanmerkungstool für maschinelles Lernen | MIT |
ilastik | Segmentieren, klassifizieren, verfolgen und zählen Sie Ihre Zellen oder andere experimentelle Daten | Brauch |
ImageTagger | Eine Open-Source-Onlineplattform für die kollaborative Bildkennzeichnung | MIT |
imglab | Ein webbasiertes Tool zum Beschriften von Bildern für Objekte, das zum Trainieren von dlib oder anderen Objektdetektoren verwendet werden kann | MIT |
KNOSSOS | Ein Softwaretool zur Visualisierung und Annotation von 3D-Bilddaten, das für die schnelle Rekonstruktion neuronaler Morphologie und Konnektivität entwickelt wurde | GPL-2 |
labelCloud | Ein leichtes Tool zum Beschriften von 3D-Begrenzungsrahmen in Punktwolken | GPL-3 |
LabelFlow | Eine offene Plattform zur Bildkennzeichnung | Brauch |
Beschrifte mich | Bildpolygonale Annotation mit Python (Polygon-, Rechteck-, Kreis-, Linien-, Punkt- und Flaggenanmerkung auf Bildebene) | Brauch |
LabelImg | Ein grafisches Bildanmerkungstool zum Beschriften von Objektbegrenzungsrahmen in Bildern | MIT |
VERLOREN | Ein flexibles webbasiertes Framework für die halbautomatische Bildanmerkung | MIT |
Machen Sie Sinn | Ein kostenloses Online-Tool zum Beschriften von Fotos | GPL-3 |
MyVision | Auf Computer Vision basierendes Tool zur Generierung von ML-Trainingsdaten | GPL-3 |
OHIF Medical Imaging Viewer | OHIF Zero-Footprint-DICOM-Viewer und onkologiespezifischer Läsions-Tracker | MIT |
OpenLabeler | Eine Open-Source-Desktopanwendung zum Kommentieren von Objekten für KI-Anwendungen | Apache-2 |
Pixano | Ein webbasiertes Smart-Annotation-Tool für Computer-Vision-Anwendungen | CeCILL-C |
Skalierbar | Ein webbasiertes visuelles Datenanmerkungstool, das sowohl die 2D- als auch die 3D-Datenbeschriftung unterstützt | Apache-2 |
webKnossos | Ein vollständig cloud- und browserbasiertes 3D-Annotationstool für die verteilte groß angelegte Datenanalyse in Licht- und Elektronenmikroskopie-basierten Connectomics | AGPL-3 |
Yolo_Label | GUI zum Markieren begrenzter Objektkästen in Bildern zum Trainieren des neuronalen Netzwerks YOLO | MIT |
Video
Name | Beschreibung | Lizenz |
---|
TAUCHEN | Medienanmerkungs- und Analysetools für Web und Desktop | Apache-2 |
Ultimative Beschriftung | Eine vielseitige Video-Labeling-GUI in Python mit integriertem SOTA-Detektor und -Tracker | MIT |
Audio
Name | Beschreibung | Lizenz |
---|
Aubio | Eine Bibliothek für Audio- und Musikanalyse | GPL-3 |
audio | Open-Source-Tool zur Audioanmerkung | MIT |
Praat | Anmerkungstool für die Phonetikanalyse | GPL-3 |
Peaks.js | JavaScript-UI-Komponente zur Interaktion mit Audiowellenformen | LGPL-3 |
Wavesurfer.js | Navigierbare Wellenform basierend auf Web Audio und Canvas | BSD-3 |
Zeitreihen
Name | Beschreibung | Lizenz |
---|
Skizeit | Ein Framework für maschinelles Lernen mit Zeitreihen | BSD-3 |
Andere
Name | Beschreibung | Lizenz |
---|
Komponieren | Automatisierte Vorhersagetechnik. Ermöglicht die einfache Strukturierung von Vorhersageproblemen und die Generierung von Beschriftungen für überwachtes Lernen | BSD-3 |
Encord Aktiv | Toolkit zum Testen, Validieren und Bewerten Ihrer Modelle sowie zum Auffinden, Kuratieren und Priorisieren der wertvollsten Daten für die Kennzeichnung | Apache-2 |
NeuroTrALE | Annotationssoftware für die Gehirnkartierung, die 3D-Bildgebung und Annotation unterstützt | BSD-2 |
OpenCRAVAT | Ein modulares Annotationstool für genomische Varianten | MIT |
PatchSorter | Ein Open-Source-Tool für die digitale Pathologie zur histologischen Objektkennzeichnung | BSD-3 |
Persönlicher Krebsgenom-Reporter (PCGR) | Ein eigenständiges Softwarepaket zur Übersetzung einzelner Tumorgenome für die Präzisionskrebsmedizin | MIT |
Komisch | Sammeln Sie menschliche Urteile (auch explizite Bewertungen genannt) für die Suchqualität. Auch ein sicherer Ort, um mit Ihrem Suchalgorithmus zu spielen. | Apache-2 |
Danksagungen
Vielen Dank an die Ersteller dieser anderen Repositories (und dieses!), die uns auf den Weg gebracht haben, unsere eigenen zu erstellen. Ich habe diese Bemühungen genutzt, um mit meiner Untersuchung des Raums zu beginnen, bevor ich gemäß den oben genannten Open-Source- und anderen Kriterien Hinzufügungen, Aktualisierungen und Bereinigungen vorgenommen habe.