? Ferramentas de anotação e rotulagem de dados de código aberto
Na ZenML, acreditamos que os fluxos de trabalho de anotação e rotulagem são uma parte essencial do ciclo de vida do aprendizado de máquina. Como uma ferramenta de código aberto, queríamos destacar e reconhecer a variedade de ferramentas disponíveis para ajudar seus fluxos de trabalho a se tornarem mais centrados nos dados. Tínhamos três critérios principais para decidir se uma ferramenta específica poderia entrar na lista:
- A ferramenta possui licença de código aberto.
- A ferramenta é mantida ativamente.
- A ferramenta é funcional e adequada à finalidade.
Agradecemos contribuições para esta lista, portanto, se você conhece uma ferramenta que perdemos ou se você mesmo criou uma, crie um PR!
Você usa essas ferramentas ou deseja adicionar uma à sua pilha de MLOps? Na ZenML, procuramos parcerias de design e colaboração para desenvolver integrações e fluxos de trabalho relacionados ao uso de anotações dentro do ciclo de vida do MLOps. Se quiser saber mais, junte-se ao nosso Slack e deixe-nos uma mensagem!
Conteúdo
- Multimodal / Multidomínio
- Texto
- Imagens
- Áudio
- Vídeo
- Série temporal
- Outro
Multimodal / Multidomínio
Nome | Descrição | Licença |
---|
Acharya | Uma ferramenta MLOps centrada em dados para seus projetos de reconhecimento de entidade nomeada | ? |
Adala | Uma estrutura de agente de dados autônomos (rotulagem). | Apache-2 |
Classifai | Uma plataforma abrangente de anotação de dados de código aberto | Apache-2 |
Ferramenta de anotação de visão computacional (CVAT) | Uma ferramenta gratuita, on-line e interativa de anotação de vídeos e imagens para visão computacional | MIT |
Anotador de dados para aprendizado de máquina (DAML) | Um aplicativo que auxilia equipes de aprendizado de máquina facilitando a criação e gerenciamento de anotações | Apache-2 |
DataGym | Ferramenta de anotação e rotulagem de código aberto para ativos de imagem e vídeo | MIT |
Difgrama | Dados de treinamento (rotulagem de dados, anotação, fluxo de trabalho) para todos os tipos de dados (imagem, vídeo, 3D, texto, área geográfica, áudio e mais) em escala | ELv2 |
Passe o mouse | Explore e rotule um mapa de dados brutos. Lida com texto, áudio e imagens. | MIT |
Estúdio de etiqueta | Uma ferramenta de rotulagem e anotação de dados de vários tipos com formato de saída padronizado | Apache-2 |
Pombo | Um widget simples que permite anotar rapidamente um conjunto de dados de exemplos não rotulados no conforto do seu notebook Jupyter | Apache-2 |
QSL: Rotulador Rápido e Simples | Uma ferramenta rápida e simples para rotular imagens, vídeos e dados de séries temporais, direto do Jupyter | MIT |
Shoonya | Plataforma para anotar e rotular dados em escala | MIT |
Tator | Plataforma web de análise de vídeo | AGPL-3 |
TornadoAi | Uma estrutura de aprendizado de máquina humana | AGPL-3 |
Ferramenta de dados universais | Um aplicativo web/desktop para editar e anotar imagens, texto, áudio, documentos e para visualizar e editar quaisquer dados definidos no padrão extensível .udt.json e .udt.csv | MIT |
Anotador de imagens VGG (VIA) | Um aplicativo anotador de imagem independente empacotado como um único arquivo HTML (<400 KB) que é executado na maioria dos navegadores modernos | BSD-2 |
VIAME | Análise de vídeo e imagem para vários ambientes | Personalizado |
Xtreme1 | Uma plataforma completa de rotulagem e anotação de dados para treinamento de dados multimodais e suporta nuvem de pontos 3D LiDAR, imagem e LLM | Apache-2 |
Texto
Nome | Descrição | Licença |
---|
Laboratório de anotação | Uma ferramenta de anotação de PNL incluída no spark-nlp | Apache-2 |
Argila | Uma estrutura Python pronta para produção para explorar, anotar e gerenciar dados em projetos de PNL | Apache-2 |
volume | Bulk é uma ferramenta de desenvolvedor rápida para aplicar alguns rótulos em massa | MIT |
NúcleoPNL | Um conjunto Java de ferramentas básicas de PNL | GPL-3 |
Controle de qualidade de dados | Plataforma de rotulagem de texto usando supervisão fraca | GPL-3 |
doutor | Uma ferramenta de anotação de texto de código aberto que suporta classificação de texto, rotulagem de sequência e tarefas de sequência para sequência | MIT |
FLAT - Ferramenta de anotação linguística FoLiA | Um ambiente de anotação linguística baseado na web baseado no formato FoLiA, um formato baseado em XML para anotação linguística | GPL-3 |
Começo | Uma plataforma de anotação semântica que oferece assistência de anotação inteligente e gerenciamento de conhecimento | Apache-2 |
amassar | Knodle (Estrutura de aprendizagem profunda supervisionada por conhecimento) | Apache-2 |
Marcação | Uma ferramenta de anotação de documentos baseada na web, desenvolvida por GPT-4 | Desconhecido |
Anotador NER para Spacy | O NER Annotator for SpaCy permite criar dados de treinamento para criar um modelo NER personalizado com tags personalizadas. | MIT |
NPLM | Modelo de rótulo parcial barulhento (NPLM) | N / D |
Batata | Uma estrutura de anotação com mais de 20 modelos, UI editável, controle de qualidade, gerenciamento de dados e uma opção para adicionar uma pesquisa para crowdsourcing | Escudo PolyForm |
refinaria | A escolha de código aberto do cientista de dados para dimensionar, avaliar e manter dados em linguagem natural. | Apache-2 |
Ardósia | Uma ferramenta de anotação superleve para especialistas: rotule o texto em um terminal apenas com Python | ISC |
INTELIGENTE | Uma ferramenta para construir conjuntos de dados de treinamento rotulados para tarefas supervisionadas de aprendizado de máquina em PNL | MIT |
Anotador SpaCy | Anotador Spacy NER usando ipywidgets | N / D |
Texto pequeno | Aprendizagem Ativa para Classificação de Texto | MIT |
Snorkel | Crie e gerencie dados de treinamento de maneira programática | Apache-2 |
fraco | skweak: Supervisão fraca para PNL | MIT |
TALEN | Uma maneira de fazer anotações para NER | Personalizado |
Tema | Ferramenta de rotulagem CLI minimalista para classificação de texto | MIT |
YEDDA | Uma ferramenta leve e colaborativa de anotação de extensão de texto | Apache-2 |
Doninha | WeaSEL: Aprendizagem de ponta a ponta com supervisão fraca | Apache-2 |
Imagens
Nome | Descrição | Licença |
---|
Fatiador 3D | Visualização, processamento, segmentação, registro e análise de imagens e malhas médicas, biomédicas e outras imagens 3D | BSD |
Anotar laboratório | Simplificando a anotação de imagens | MIT |
Notório | Uma biblioteca JavaScript para anotação de imagens | BSD-3 |
Qualquer rotulagem | Rotulagem de dados assistida por IA sem esforço com suporte de IA da YOLO, Segment Anything, MobileSAM | GPL-3 |
autodestilação | Imagens para inferência sem rotulagem (use modelos básicos para treinar modelos supervisionados) | Apache-2 |
visualizador bbox | Torne o desenho e a etiquetagem das caixas delimitadoras muito fácil | MIT |
Editor de caixa delimitadora | Um aplicativo de desktop JavaFX para criar anotações de objetos de imagem com caixas delimitadoras | GPL-3 |
CATMAID | O kit de ferramentas de anotação colaborativa para grandes quantidades de dados de imagem | GPL-3 |
Anotador COCO | Uma ferramenta de segmentação de imagens baseada na web para detecção, localização e pontos-chave de objetos | MIT |
DeepLabel | Uma ferramenta de anotação de imagens de desktop multiplataforma para aprendizado de máquina | MIT |
ilastik | Segmente, classifique, rastreie e conte suas células ou outros dados experimentais | Personalizado |
ImageTagger | Uma plataforma online de código aberto para rotulagem colaborativa de imagens | MIT |
imglab | Uma ferramenta baseada na web para rotular imagens de objetos que podem ser usadas para treinar dlib ou outros detectores de objetos | MIT |
CNOSSO | Uma ferramenta de software para visualização e anotação de dados de imagens 3D e foi desenvolvida para a rápida reconstrução da morfologia neural e conectividade | GPL-2 |
rótuloCloud | Uma ferramenta leve para rotular caixas delimitadoras 3D em nuvens de pontos | GPL-3 |
LabelFlow | Uma plataforma aberta para rotulagem de imagens | Personalizado |
rotule-me | Anotação poligonal de imagem com Python (polígono, retângulo, círculo, linha, ponto e anotação de bandeira em nível de imagem) | Personalizado |
EtiquetaImg | Uma ferramenta gráfica de anotação de imagens e caixas delimitadoras de objetos de rótulos em imagens | MIT |
PERDIDO | Uma estrutura flexível baseada na Web para anotação semiautomática de imagens | MIT |
Faça sentido | Uma ferramenta online gratuita para rotular fotos | GPL-3 |
Minha Visão | Ferramenta de geração de dados de treinamento de ML baseada em visão computacional | GPL-3 |
Visualizador de imagens médicas OHIF | Visualizador DICOM de pegada zero OHIF e Lesion Tracker específico para oncologia | MIT |
OpenLabeler | Um aplicativo de desktop de código aberto para anotar objetos para aplicativos de IA | Apache-2 |
Pixano | Uma ferramenta de anotação inteligente baseada na web para aplicações de visão computacional | CeCILL-C |
Scalabel | Uma ferramenta de anotação de dados visuais baseada na web, compatível com rotulagem de dados 2D e 3D | Apache-2 |
webKnossos | Uma ferramenta de anotação 3D totalmente baseada em nuvem e em navegador para análise distribuída de dados em grande escala em Conectômica baseada em microscopia óptica e eletrônica | AGPL-3 |
Yolo_Label | GUI para marcação de caixas delimitadas de objetos em imagens para treinamento de rede neural YOLO | MIT |
Vídeo
Nome | Descrição | Licença |
---|
MERGULHO | Ferramentas de anotação e análise de mídia para web e desktop | Apache-2 |
Rotulagem final | Uma GUI multifuncional de rotulagem de vídeo em Python com detector e rastreador SOTA integrado | MIT |
Áudio
Nome | Descrição | Licença |
---|
áudio | Uma biblioteca para análise de áudio e música | GPL-3 |
Audino | Ferramenta de anotação de áudio de código aberto | MIT |
Praat | Ferramenta de anotação para análise fonética | GPL-3 |
Picos.js | Componente JavaScript UI para interagir com formas de onda de áudio | LGPL-3 |
Wavesurfer.js | Forma de onda navegável construída em Web Audio e Canvas | BSD-3 |
Série temporal
Nome | Descrição | Licença |
---|
sktime | Uma estrutura para aprendizado de máquina com séries temporais | BSD-3 |
Outro
Nome | Descrição | Licença |
---|
Compor | Engenharia de previsão automatizada. Permite estruturar facilmente problemas de previsão e gerar rótulos para aprendizagem supervisionada | BSD-3 |
Gravação ativa | Kit de ferramentas para testar, validar e avaliar seus modelos e revelar, selecionar e priorizar os dados mais valiosos para rotulagem | Apache-2 |
NeuroTrale | Software de anotação para mapeamento cerebral, com suporte para imagens e anotações 3D | BSD-2 |
OpenCRAVAT | Uma ferramenta de anotação modular para variantes genômicas | MIT |
Classificador de patches | Uma ferramenta de patologia digital de código aberto para rotulagem de objetos histológicos | BSD-3 |
Repórter Pessoal do Genoma do Câncer (PCGR) | Um pacote de software independente para tradução de genomas tumorais individuais para medicina de precisão contra o câncer | MIT |
Quepido | Reúna julgamentos humanos (também conhecidos como classificações explícitas) para qualidade de pesquisa. Também é um espaço seguro para brincar com seu algoritmo de pesquisa. | Apache-2 |
Agradecimentos
Obrigado aos criadores desses outros repositórios (e deste!) por nos ajudarem a criar o nosso próprio. Usei esses esforços para começar minha pesquisa do espaço antes de adicionar, atualizar e podar de acordo com o código aberto e outros critérios especificados acima.