? Herramientas de etiquetado y anotación de datos de código abierto
En ZenML creemos que los flujos de trabajo de anotación y etiquetado son una parte fundamental del ciclo de vida del aprendizaje automático. Como herramienta de código abierto, queríamos resaltar y reconocer la variedad de herramientas disponibles para ayudar a que sus flujos de trabajo se centren más en los datos. Teníamos tres criterios básicos para decidir si una herramienta en particular podría figurar en la lista:
- La herramienta tiene una licencia de código abierto.
- La herramienta se mantiene activamente.
- La herramienta es funcional y adecuada para su propósito.
Agradecemos las contribuciones a esta lista, por lo que si conoce una herramienta que hemos pasado por alto o si ha creado una usted mismo, ¡cree un PR!
¿Utilizas estas herramientas o quieres agregar una a tu pila MLOps? En ZenML, buscamos asociaciones de diseño y colaboración para desarrollar integraciones y flujos de trabajo en torno al uso de anotaciones dentro del ciclo de vida de MLOps. Si desea obtener más información, únase a nuestro Slack y déjenos un mensaje.
Contenido
- Multimodal/Multidominio
- Texto
- Imágenes
- Audio
- Video
- Serie temporal
- Otro
Multimodal/Multidominio
Nombre | Descripción | Licencia |
---|
acharya | Una herramienta MLOps centrada en datos para sus proyectos de reconocimiento de entidades nombradas | ? |
Adala | Un marco de agente de datos autónomo (etiquetado). | apache-2 |
clasificado | Una plataforma integral de anotación de datos de código abierto | apache-2 |
Herramienta de anotación de visión por computadora (CVAT) | Una herramienta gratuita, en línea e interactiva de anotación de imágenes y vídeos para visión por computadora | MIT |
Anotador de datos para aprendizaje automático (DAML) | Una aplicación que ayuda a los equipos de aprendizaje automático facilitando la creación y gestión de anotaciones. | apache-2 |
Gimnasio de datos | Herramienta de anotación y etiquetado de código abierto para activos de imágenes y vídeos | MIT |
digrama | Datos de entrenamiento (etiquetado de datos, anotaciones, flujo de trabajo) para todos los tipos de datos (imagen, vídeo, 3D, texto, geografía, audio, más) a escala | ELv2 |
Flotar | Explora y etiqueta en un mapa de datos sin procesar. Maneja texto, audio e imágenes. | MIT |
Estudio de etiquetas | Una herramienta de anotación y etiquetado de datos de múltiples tipos con formato de salida estandarizado | apache-2 |
Paloma | Un widget simple que le permite anotar rápidamente un conjunto de datos de ejemplos sin etiquetar desde la comodidad de su cuaderno Jupyter. | apache-2 |
QSL: etiquetadora rápida y sencilla | Una herramienta rápida y sencilla para etiquetar imágenes, vídeos y datos de series temporales, directamente desde Jupyter | MIT |
Shoonya | Plataforma para anotar y etiquetar datos a escala | MIT |
tator | Plataforma web de análisis de vídeo. | AGPL-3 |
TornadoAi | Un marco de aprendizaje automático integrado por humanos | AGPL-3 |
Herramienta de datos universal | Una aplicación web/de escritorio para editar y anotar imágenes, texto, audio, documentos y para ver y editar cualquier dato definido en el estándar extensible .udt.json y .udt.csv. | MIT |
Anotador de imágenes VGG (VIA) | Una aplicación independiente de anotación de imágenes empaquetada como un único archivo HTML (< 400 KB) que se ejecuta en la mayoría de los navegadores web modernos. | BSD-2 |
VIAME | Análisis de vídeo e imágenes para múltiples entornos | Costumbre |
extremo1 | Una plataforma de anotación y etiquetado de datos todo en uno para entrenamiento de datos multimodales y compatible con nube de puntos, imágenes y LLM 3D LiDAR | apache-2 |
Texto
Nombre | Descripción | Licencia |
---|
Laboratorio de anotaciones | Una herramienta de anotación de PNL incluida en spark-nlp | apache-2 |
argilla | Un marco Python listo para producción para explorar, anotar y administrar datos en proyectos de PNL | apache-2 |
a granel | Bulk es una herramienta de desarrollo rápida para aplicar algunas etiquetas masivas | MIT |
NLP central | Un conjunto Java de herramientas centrales de PNL | GPL-3 |
control de calidad de datos | Plataforma de etiquetado para texto con supervisión débil | GPL-3 |
docano | Una herramienta de anotación de texto de código abierto que admite clasificación de texto, etiquetado de secuencias y tareas de secuencia a secuencia | MIT |
FLAT - Herramienta de anotación lingüística FoLiA | Un entorno de anotación lingüística basado en web basado en el formato FoLiA, un formato basado en XML para anotaciones lingüísticas. | GPL-3 |
Comienzo | Una plataforma de anotación semántica que ofrece asistencia inteligente para la anotación y gestión del conocimiento. | apache-2 |
nudo | Knodle (marco de aprendizaje profundo supervisado por el conocimiento) | apache-2 |
Margen | Una herramienta de anotación de documentos basada en web, impulsada por GPT-4 | Desconocido |
Anotador NER para Spacy | NER Annotator para SpaCy le permite crear datos de entrenamiento para crear un modelo NER personalizado con etiquetas personalizadas. | MIT |
NPLM | Modelo de etiqueta parcial ruidosa (NPLM) | N / A |
Papa | Un marco de anotaciones con más de 20 plantillas, interfaz de usuario editable, control de calidad, gestión de datos y una opción para agregar una encuesta para crowdsourcing. | Escudo PolyForm |
refinería | La elección de código abierto del científico de datos para escalar, evaluar y mantener datos en lenguaje natural. | apache-2 |
Pizarra | Una herramienta de anotación súper liviana para expertos: etiquete texto en una terminal solo con Python | ISC |
ELEGANTE | Una herramienta para crear conjuntos de datos de entrenamiento etiquetados para tareas supervisadas de aprendizaje automático en PNL | MIT |
Anotador SpaCy | Anotador NER espacial usando ipywidgets | N / A |
Texto pequeño | Aprendizaje activo para la clasificación de textos | MIT |
Esnórquel | Cree y administre datos de capacitación mediante programación | apache-2 |
débil | skweak: supervisión débil de la PNL | MIT |
TALEN | Una forma de hacer anotaciones para NER. | Costumbre |
Tema | Herramienta de etiquetado CLI minimalista para clasificación de texto | MIT |
YEDDA | Una herramienta ligera y colaborativa de anotación de intervalos de texto | apache-2 |
Comadreja | WeaSEL: aprendizaje de extremo a extremo débilmente supervisado | apache-2 |
Imágenes
Nombre | Descripción | Licencia |
---|
Cortadora 3D | Visualización, procesamiento, segmentación, registro y análisis de imágenes y mallas médicas, biomédicas y otras imágenes 3D. | BSD |
Anotar laboratorio | Simplificar la anotación de imágenes | MIT |
anónimo | Una biblioteca de JavaScript para anotaciones de imágenes. | BSD-3 |
Cualquier etiquetado | Etiquetado de datos asistido por IA sin esfuerzo con soporte de IA de YOLO, Segment Anything, MobileSAM | GPL-3 |
autodestilación | Imágenes para inferencia sin etiquetado (use modelos básicos para entrenar modelos supervisados) | apache-2 |
visualizador-bbox | Haz que dibujar y etiquetar cuadros delimitadores sea muy fácil | MIT |
Editor de cuadros delimitadores | Una aplicación de escritorio JavaFX para crear anotaciones de objetos de imagen con cuadros delimitadores | GPL-3 |
CATMAID | El kit de herramientas de anotación colaborativa para cantidades masivas de datos de imágenes | GPL-3 |
Anotador COCO | Una herramienta de segmentación de imágenes basada en web para detección, localización y puntos clave de objetos. | MIT |
Etiqueta profunda | Una herramienta de anotación de imágenes de escritorio multiplataforma para el aprendizaje automático | MIT |
ilastik | Segmente, clasifique, rastree y cuente sus células u otros datos experimentales | Costumbre |
Etiquetador de imágenes | Una plataforma en línea de código abierto para el etiquetado colaborativo de imágenes. | MIT |
imglab | Una herramienta basada en web para etiquetar imágenes de objetos que se pueden utilizar para entrenar dlib u otros detectores de objetos. | MIT |
KNOSOS | Una herramienta de software para la visualización y anotación de datos de imágenes 3D y fue desarrollada para la reconstrucción rápida de la morfología y la conectividad neuronal. | GPL-2 |
etiquetaNube | Una herramienta ligera para etiquetar cuadros delimitadores 3D en nubes de puntos | GPL-3 |
Flujo de etiquetas | Una plataforma abierta para el etiquetado de imágenes. | Costumbre |
etiquetarme | Anotación poligonal de imagen con Python (anotación de bandera a nivel de polígono, rectángulo, círculo, línea, punto y imagen) | Costumbre |
EtiquetaImg | Una herramienta gráfica de anotación de imágenes y cuadros delimitadores de objetos de etiquetas en imágenes. | MIT |
PERDIDO | Un marco flexible basado en web para la anotación de imágenes semiautomática | MIT |
Tener sentido | Una herramienta en línea de uso gratuito para etiquetar fotografías | GPL-3 |
Mi visión | Herramienta de generación de datos de capacitación de aprendizaje automático basada en visión por computadora | GPL-3 |
Visor de imágenes médicas OHIF | Visor DICOM OHIF de huella cero y rastreador de lesiones específico para oncología | MIT |
Etiqueta abierta | Una aplicación de escritorio de código abierto para anotar objetos para aplicaciones de IA | apache-2 |
Pixano | Una herramienta de anotación inteligente basada en web para aplicaciones de visión por computadora | CeCILL-C |
Escalabel | Una herramienta de anotación de datos visuales basada en web, que admite etiquetado de datos tanto 2D como 3D. | apache-2 |
webKnossos | Una herramienta de anotación 3D totalmente basada en la nube y en el navegador para el análisis de datos distribuidos a gran escala en Connectomics basado en microscopía óptica y electrónica. | AGPL-3 |
Yolo_Label | GUI para marcar cuadros delimitados de objetos en imágenes para entrenar la red neuronal YOLO | MIT |
Video
Nombre | Descripción | Licencia |
---|
BUCEAR | Herramientas de análisis y anotación de medios para web y escritorio | apache-2 |
Etiquetado definitivo | Una GUI de etiquetado de vídeo multipropósito en Python con detector y rastreador SOTA integrado | MIT |
Audio
Nombre | Descripción | Licencia |
---|
aubio | Una biblioteca para análisis de audio y música. | GPL-3 |
auditino | Herramienta de anotación de audio de código abierto | MIT |
Praat | Herramienta de anotación para análisis fonético. | GPL-3 |
Picos.js | Componente de interfaz de usuario de JavaScript para interactuar con formas de onda de audio | LGPL-3 |
Wavesurfer.js | Forma de onda navegable construida en Web Audio y Canvas | BSD-3 |
Serie temporal
Nombre | Descripción | Licencia |
---|
tiempo de espera | Un marco para el aprendizaje automático con series temporales. | BSD-3 |
Otro
Nombre | Descripción | Licencia |
---|
Componer | Ingeniería de predicción automatizada. Le permite estructurar fácilmente problemas de predicción y generar etiquetas para el aprendizaje supervisado. | BSD-3 |
Encord activo | Kit de herramientas para probar, validar y evaluar sus modelos y exponer, seleccionar y priorizar los datos más valiosos para el etiquetado. | apache-2 |
NeuroTrALE | Software de anotación para mapeo cerebral, compatible con imágenes y anotaciones en 3D | BSD-2 |
AbrirCRAVAT | Una herramienta de anotación modular para variantes genómicas. | MIT |
Clasificador de parches | Una herramienta de patología digital de código abierto para el etiquetado de objetos histológicos | BSD-3 |
Reportero personal del genoma del cáncer (PCGR) | Un paquete de software independiente para la traducción de genomas tumorales individuales para una medicina oncológica de precisión | MIT |
Quepido | Recopile juicios humanos (también conocidos como calificaciones explícitas) para la calidad de la búsqueda. También un espacio seguro para jugar con tu algoritmo de búsqueda. | apache-2 |
Expresiones de gratitud
Gracias a los creadores de estos otros repositorios (¡y de éste!) por ayudarnos a seguir el camino de crear el nuestro. Utilicé estos esfuerzos para comenzar mi estudio del espacio antes de agregar, actualizar y podar según el código abierto y otros criterios especificados anteriormente.