? Outils d'annotation et d'étiquetage de données open source
Chez ZenML, nous pensons que les workflows d'annotation et d'étiquetage sont au cœur du cycle de vie du machine learning. En tant qu'outil open source, nous souhaitions mettre en évidence et reconnaître la variété d'outils disponibles pour aider vos flux de travail à devenir plus centrés sur les données. Nous avions trois critères principaux pour décider si un outil particulier pouvait figurer dans la liste :
- L'outil dispose d'une licence open source.
- L’outil est activement maintenu.
- L'outil est fonctionnel et adapté à son usage.
Nous apprécions les contributions à cette liste, donc si vous connaissez un outil que nous avons manqué ou si vous en avez créé un vous-même, veuillez créer un PR !
Utilisez-vous ces outils ou souhaitez-vous en ajouter un à votre pile MLOps ? Chez ZenML, nous recherchons des partenariats de conception et une collaboration pour développer les intégrations et les flux de travail autour de l'utilisation de l'annotation dans le cycle de vie MLOps. Si vous souhaitez en savoir plus, rejoignez notre Slack et laissez-nous un message !
Contenu
- Multimodal / Multi domaine
- Texte
- Images
- Audio
- Vidéo
- Série chronologique
- Autre
Multimodal / Multi domaine
Nom | Description | Licence |
---|
Acharya | Un outil MLOps centré sur les données pour vos projets de reconnaissance d'entités nommées | ? |
Adala | Un cadre d'agent de données autonome (étiquetage). | Apache-2 |
Classifai | Une plateforme complète d'annotation de données open source | Apache-2 |
Outil d'annotation de vision par ordinateur (CVAT) | Un outil gratuit, en ligne et interactif d'annotation de vidéos et d'images pour la vision par ordinateur | MIT |
Annotateur de données pour l'apprentissage automatique (DAML) | Une application qui aide les équipes de machine learning à faciliter la création et la gestion des annotations | Apache-2 |
DataGym | Outil open source d'annotation et d'étiquetage pour les ressources image et vidéo | MIT |
Diffgramme | Données de formation (étiquetage des données, annotations, flux de travail) pour tous les types de données (image, vidéo, 3D, texte, géo, audio, etc.) à grande échelle | ELv2 |
Flotter | Explorez et étiquetez sur une carte de données brutes. Gère le texte, l’audio et les images. | MIT |
Studio d'étiquettes | Un outil d'étiquetage et d'annotation de données multi-types avec un format de sortie standardisé | Apache-2 |
Pigeon | Un widget simple qui vous permet d'annoter rapidement un ensemble de données d'exemples non étiquetés dans le confort de votre notebook Jupyter | Apache-2 |
QSL : étiqueteur simple et rapide | Un outil simple et rapide pour étiqueter des images, des vidéos et des données de séries chronologiques, directement depuis Jupyter | MIT |
Shoonya | Plateforme pour annoter et étiqueter les données à grande échelle | MIT |
Tateur | Plateforme Web d'analyse vidéo | AGPL-3 |
TornadeAi | Un cadre d'apprentissage automatique humain dans la boucle | AGPL-3 |
Outil de données universel | Une application Web/de bureau pour éditer et annoter des images, du texte, de l'audio, des documents et pour afficher et modifier toutes les données définies dans la norme extensible .udt.json et .udt.csv. | MIT |
Annotateur d'images VGG (VIA) | Une application d'annotation d'images autonome conditionnée sous la forme d'un seul fichier HTML (< 400 Ko) qui s'exécute sur la plupart des navigateurs Web modernes. | BSD-2 |
VIAME | Analyse de vidéos et d'images pour plusieurs environnements | Coutume |
Xtrême1 | Une plateforme tout-en-un d'étiquetage et d'annotation de données pour la formation de données multimodales et prenant en charge les nuages de points LiDAR 3D, les images et le LLM. | Apache-2 |
Texte
Nom | Description | Licence |
---|
Laboratoire d'annotations | Un outil d'annotation PNL inclus dans spark-nlp | Apache-2 |
Argille | Un framework Python prêt pour la production pour explorer, annoter et gérer les données dans les projets NLP | Apache-2 |
en gros | Bulk est un outil de développement rapide pour appliquer des étiquettes groupées | MIT |
NoyauNLP | Une suite Java d'outils PNL de base | GPL-3 |
QA des données | Plateforme d'étiquetage de texte utilisant une supervision faible | GPL-3 |
Doccano | Un outil d'annotation de texte open source prenant en charge la classification de texte, l'étiquetage de séquence et les tâches séquence à séquence. | MIT |
FLAT - Outil d'annotation linguistique FoLiA | Un environnement d'annotation linguistique basé sur le Web basé sur le format FoLiA, un format XML pour l'annotation linguistique | GPL-3 |
Création | Une plateforme d'annotation sémantique offrant une assistance intelligente aux annotations et une gestion des connaissances | Apache-2 |
noeud | Knodle (cadre d'apprentissage profond supervisé par les connaissances) | Apache-2 |
Balisage | Un outil d'annotation de documents basé sur le Web, optimisé par GPT-4 | Inconnu |
Annotateur NER pour Spacy | NER Annotator pour SpaCy vous permet de créer des données de formation pour créer un modèle NER personnalisé avec des balises personnalisées. | MIT |
NPLM | Modèle d'étiquette partielle bruyante (NPLM) | N / A |
Pomme de terre | Un cadre d'annotation avec plus de 20 modèles, une interface utilisateur modifiable, un contrôle qualité, une gestion des données et une option pour ajouter une enquête pour le crowdsourcing | Bouclier PolyForm |
raffinerie | Le choix open source du data scientist pour mettre à l'échelle, évaluer et maintenir les données en langage naturel. | Apache-2 |
Ardoise | Un outil d'annotation ultra-léger pour les experts : étiquetez le texte dans un terminal avec uniquement Python | ISC |
INTELLIGENT | Un outil pour créer des ensembles de données de formation étiquetés pour les tâches d'apprentissage automatique supervisées en PNL | MIT |
Annotateur SpaCy | Annotateur Spacy NER utilisant ipywidgets | N / A |
Petit texte | Apprentissage actif pour la classification de textes | MIT |
Tuba | Créer et gérer des données de formation par programmation | Apache-2 |
skweak | skweak : supervision faible pour la PNL | MIT |
TALEN | Un moyen de faire des annotations pour NER | Coutume |
Thème | Outil d'étiquetage CLI minimaliste pour la classification de texte | MIT |
YEDDA | Un outil collaboratif léger d'annotation d'étendue de texte | Apache-2 |
Belette | WeaSEL : apprentissage de bout en bout faiblement supervisé | Apache-2 |
Images
Nom | Description | Licence |
---|
Trancheuse 3D | Visualisation, traitement, segmentation, enregistrement et analyse d'images et de maillages médicaux, biomédicaux et autres 3D | BSD |
Annoter le laboratoire | Simplifier l'annotation des images | MIT |
Annotoire | Une bibliothèque JavaScript pour l'annotation d'images | BSD-3 |
ToutÉtiquetage | Étiquetage des données sans effort assisté par l'IA avec prise en charge de l'IA de YOLO, Segment Anything, MobileSAM | GPL-3 |
autodistillation | Images à inférer sans étiquetage (utilisez des modèles de base pour former des modèles supervisés) | Apache-2 |
bbox-visualiseur | Facilitez le dessin et l'étiquetage des cadres de délimitation en un tour de main | MIT |
Éditeur de cadre de délimitation | Une application de bureau JavaFX pour créer des annotations d'objets image avec des cadres de délimitation | GPL-3 |
CATMAID | La boîte à outils d'annotation collaborative pour des quantités massives de données d'image | GPL-3 |
Annotateur COCO | Un outil Web de segmentation d'images pour la détection, la localisation et les points clés d'objets | MIT |
Étiquette profonde | Un outil d'annotation d'images de bureau multiplateforme pour l'apprentissage automatique | MIT |
ilastique | Segmentez, classez, suivez et comptez vos cellules ou autres données expérimentales | Coutume |
ImageTagger | Une plateforme en ligne open source pour l'étiquetage collaboratif des images | MIT |
imglab | Un outil Web pour étiqueter les images d'objets pouvant être utilisé pour entraîner dlib ou d'autres détecteurs d'objets. | MIT |
KOSSOS | Un outil logiciel pour la visualisation et l'annotation de données d'images 3D et a été développé pour la reconstruction rapide de la morphologie et de la connectivité neuronale. | GPL-2 |
labelCloud | Un outil léger pour étiqueter les cadres de délimitation 3D dans les nuages de points | GPL-3 |
Flux d'étiquettes | Une plateforme ouverte pour l'étiquetage des images | Coutume |
labelme | Annotation polygonale d'image avec Python (annotation de polygone, rectangle, cercle, ligne, point et drapeau au niveau de l'image) | Coutume |
ÉtiquetteImg | Un outil d'annotation d'image graphique et des cadres de délimitation d'objet d'étiquette dans les images | MIT |
PERDU | Un cadre Web flexible pour l'annotation d'images semi-automatiques | MIT |
Donner du sens | Un outil en ligne gratuit pour étiqueter les photos | GPL-3 |
MaVision | Outil de génération de données de formation ML basé sur la vision par ordinateur | GPL-3 |
Visionneuse d'imagerie médicale OHIF | Visionneuse DICOM sans empreinte OHIF et suivi des lésions spécifique à l'oncologie | MIT |
OpenLabeler | Une application de bureau open source pour annoter des objets pour les applications d'IA | Apache-2 |
Pixano | Un outil d'annotation intelligent basé sur le Web pour les applications de vision par ordinateur | CeCILL-C |
Évolutif | Un outil Web d'annotation de données visuelles, prenant en charge l'étiquetage des données 2D et 3D. | Apache-2 |
webKnossos | Un outil d'annotation 3D entièrement basé sur le cloud et sur un navigateur pour l'analyse distribuée de données à grande échelle dans la connectomique basée sur la microscopie optique et électronique. | AGPL-3 |
Yolo_Label | Interface graphique pour marquer les boîtes délimitées d'objets dans les images pour la formation du réseau neuronal YOLO | MIT |
Vidéo
Nom | Description | Licence |
---|
PLONGER | Outils d'annotation et d'analyse des médias pour le Web et le bureau | Apache-2 |
Étiquetage ultime | Une interface graphique d'étiquetage vidéo polyvalente en Python avec détecteur et tracker SOTA intégrés | MIT |
Audio
Nom | Description | Licence |
---|
aubio | Une bibliothèque pour l'analyse audio et musicale | GPL-3 |
audition | Outil d'annotation audio open source | MIT |
Praat | Outil d'annotation pour l'analyse phonétique | GPL-3 |
Pics.js | Composant d'interface utilisateur JavaScript pour interagir avec les formes d'onde audio | LGPL-3 |
Wavesurfer.js | Forme d'onde navigable construite sur Web Audio et Canvas | BSD-3 |
Série chronologique
Nom | Description | Licence |
---|
heure de ski | Un framework pour l'apprentissage automatique avec des séries temporelles | BSD-3 |
Autre
Nom | Description | Licence |
---|
Composer | Ingénierie de prédiction automatisée. Vous permet de structurer facilement des problèmes de prédiction et de générer des étiquettes pour l'apprentissage supervisé | BSD-3 |
Encordement actif | Boîte à outils pour tester, valider et évaluer vos modèles et faire apparaître, organiser et hiérarchiser les données les plus précieuses pour l'étiquetage | Apache-2 |
NeuroTraLE | Logiciel d'annotation pour la cartographie cérébrale, prenant en charge l'imagerie et l'annotation 3D | BSD-2 |
OuvrirCRAVAT | Un outil d'annotation modulaire pour les variantes génomiques | MIT |
Trieur de correctifs | Un outil de pathologie numérique open source pour l'étiquetage des objets histologiques | BSD-3 |
Journaliste personnel sur le génome du cancer (PCGR) | Un progiciel autonome pour la traduction de génomes tumoraux individuels pour la médecine de précision du cancer | MIT |
Quepid | Recueillez les jugements humains (alias évaluations explicites) pour la qualité de la recherche. C'est également un espace sûr pour jouer avec votre algorithme de recherche. | Apache-2 |
Remerciements
Merci aux créateurs de ces autres référentiels (et de celui-ci !) de nous avoir permis de créer le nôtre. J'ai utilisé ces efforts pour commencer mon enquête sur l'espace avant d'ajouter, de mettre à jour et d'élaguer selon les critères open source et autres spécifiés ci-dessus.