? 오픈 소스 데이터 주석 및 라벨링 도구
ZenML에서는 주석 및 라벨링 워크플로가 기계 학습 수명 주기의 핵심 부분이라고 믿습니다. 오픈 소스 도구로서 우리는 워크플로를 더욱 데이터 중심적으로 만드는 데 사용할 수 있는 다양한 도구를 강조하고 인식하고 싶었습니다. 특정 도구가 목록에 포함될 수 있는지 여부를 결정하기 위한 세 가지 핵심 기준이 있었습니다.
- 이 도구에는 오픈 소스 라이선스가 있습니다.
- 이 도구는 적극적으로 유지 관리됩니다.
- 이 도구는 기능적이며 목적에 적합합니다.
이 목록에 대한 기여를 환영합니다. 우리가 놓친 도구를 알고 있거나 직접 만든 경우 PR을 작성해 주세요!
이러한 도구를 사용하십니까, 아니면 MLOps 스택에 추가하시겠습니까? ZenML에서는 MLOps 수명 주기 내에서 주석 사용과 관련된 통합 및 워크플로를 개발하기 위해 디자인 파트너십과 협업을 찾고 있습니다. 더 자세히 알고 싶으시면 Slack에 가입하시고 메시지를 남겨주세요!
내용물
- 다중 모달/다중 도메인
- 텍스트
- 이미지
- 오디오
- 동영상
- 시계열
- 다른
다중 모달/다중 도메인
이름 | 설명 | 특허 |
---|
아차리아 | 명명된 엔터티 인식 프로젝트를 위한 데이터 중심 MLOps 도구 | ? |
아달라 | 자율 데이터(라벨링) 에이전트 프레임워크입니다. | 아파치-2 |
분류 | 포괄적인 오픈 소스 데이터 주석 플랫폼 | 아파치-2 |
컴퓨터 비전 주석 도구(CVAT) | 컴퓨터 비전을 위한 무료 온라인 대화형 비디오 및 이미지 주석 도구 | MIT |
기계 학습을 위한 데이터 주석자(DAML) | 기계 학습 팀이 주석 생성 및 관리를 촉진하는 데 도움이 되는 애플리케이션 | 아파치-2 |
데이터짐 | 이미지 및 비디오 자산을 위한 오픈 소스 주석 및 라벨링 도구 | MIT |
디프그램 | 모든 데이터 유형(이미지, 비디오, 3D, 텍스트, 지역, 오디오 등)에 대한 대규모 교육 데이터(데이터 라벨링, 주석, 워크플로) | ELv2 |
호버 | 원시 데이터 지도를 탐색하고 라벨을 붙입니다. 텍스트, 오디오, 이미지를 처리합니다. | MIT |
라벨 스튜디오 | 표준화된 출력 형식을 갖춘 다중 유형 데이터 라벨링 및 주석 도구 | 아파치-2 |
비둘기 | Jupyter 노트북에서 편안하게 레이블이 지정되지 않은 예제 데이터 세트에 빠르게 주석을 달 수 있는 간단한 위젯 | 아파치-2 |
QSL: 빠르고 간단한 라벨러 | Jupyter에서 바로 이미지, 비디오 및 시계열 데이터에 라벨을 지정하는 빠르고 간단한 도구입니다. | MIT |
슈냐 | 대규모로 데이터에 주석을 달고 레이블을 지정하는 플랫폼 | MIT |
테이터 | 비디오 분석 웹 플랫폼 | AGPL-3 |
토네이도AI | 인간 참여형(Human-In-The-Loop) 기계 학습 프레임워크 | AGPL-3 |
범용 데이터 도구 | 이미지, 텍스트, 오디오, 문서를 편집하고 주석을 달고 확장 가능한 .udt.json 및 .udt.csv 표준에 정의된 모든 데이터를 보고 편집하기 위한 웹/데스크톱 앱 | MIT |
VGG 이미지 주석자(VIA) | 대부분의 최신 웹 브라우저에서 실행되는 단일 HTML 파일(< 400KB)로 패키지된 독립형 이미지 주석 애플리케이션 | BSD-2 |
비아메 | 다양한 환경을 위한 비디오 및 이미지 분석 | 관습 |
익스트림1 | 다중 모드 데이터 훈련을 위한 올인원 데이터 라벨링 및 주석 플랫폼이며 3D LiDAR 포인트 클라우드, 이미지 및 LLM을 지원합니다. | 아파치-2 |
텍스트
이름 | 설명 | 특허 |
---|
주석 연구실 | spark-nlp 에 포함된 NLP 주석 도구 | 아파치-2 |
아르길라 | NLP 프로젝트에서 데이터를 탐색하고 주석을 달고 관리하기 위한 프로덕션 지원 Python 프레임워크 | 아파치-2 |
대부분 | Bulk는 일부 대량 라벨을 적용하는 빠른 개발자 도구입니다. | MIT |
코어NLP | 핵심 NLP 도구의 Java 제품군 | GPL-3 |
데이터QA | 약한 감독을 사용하는 텍스트 라벨링 플랫폼 | GPL-3 |
도카노 | 텍스트 분류, 서열 라벨링 및 서열 간 작업을 지원하는 오픈 소스 텍스트 주석 도구 | MIT |
FLAT - FoLiA 언어 주석 도구 | XML 기반 언어주석 형식인 FoLiA 형식을 기반으로 한 웹 기반 언어주석 환경 | GPL-3 |
처음 | 지능형 주석 지원 및 지식 관리를 제공하는 의미론적 주석 플랫폼 | 아파치-2 |
손잡이 | Knodle(지식 지도 딥러닝 프레임워크) | 아파치-2 |
마크업 | GPT-4로 구동되는 웹 기반 문서 주석 도구 | 알려지지 않은 |
Spacy용 NER 주석자 | SpaCy용 NER Annotator를 사용하면 사용자 정의 태그를 사용하여 사용자 정의 NER 모델을 생성하기 위한 교육 데이터를 생성할 수 있습니다. | MIT |
NPLM | 시끄러운 부분 라벨 모델(NPLM) | 해당 없음 |
감자 | 20개 이상의 템플릿, 편집 가능한 UI, 품질 관리, 데이터 관리 및 크라우드소싱을 위한 설문조사 추가 옵션을 갖춘 주석 프레임워크 | 폴리폼 쉴드 |
정련소 | 자연어 데이터를 확장, 평가 및 유지 관리하기 위한 데이터 과학자의 오픈 소스 선택입니다. | 아파치-2 |
슬레이트 | 전문가를 위한 초경량 주석 도구: Python만으로 터미널의 텍스트에 레이블을 지정합니다. | ISC |
똑똑한 | NLP의 지도 기계 학습 작업을 위한 레이블이 지정된 훈련 데이터 세트를 구축하기 위한 도구 | MIT |
SpaCy 주석자 | ipywidget을 사용하는 Spacy NER 주석자 | 해당 없음 |
작은 텍스트 | 텍스트 분류를 위한 능동 학습 | MIT |
스노클 | 훈련 데이터를 프로그래밍 방식으로 구축 및 관리 | 아파치-2 |
삐걱거리다 | skweak: NLP에 대한 약한 감독 | MIT |
탈렌 | NER에 대한 주석을 작성하는 방법 | 관습 |
주제 | 텍스트 분류를 위한 최소한의 CLI 레이블 지정 도구 | MIT |
예다 | 가벼운 협업 텍스트 범위 주석 도구 | 아파치-2 |
족제비 | WeaSEL: 약하게 지도되는 종단 간 학습 | 아파치-2 |
이미지
이름 | 설명 | 특허 |
---|
3D 슬라이서 | 의료, 생물 의학 및 기타 3D 이미지와 메시의 시각화, 처리, 분할, 등록 및 분석 | BSD |
주석 실습 | 이미지 주석 단순화 | MIT |
악명 높은 | 이미지 주석을 위한 JavaScript 라이브러리 | BSD-3 |
AnyLabeling | YOLO, Segment Anything, MobileSAM의 AI 지원으로 손쉬운 AI 지원 데이터 라벨링 | GPL-3 |
자동 증류 | 라벨링 없이 추론할 이미지(기본 모델을 사용하여 지도 모델 교육) | 아파치-2 |
bbox-비주얼라이저 | 경계 상자 그리기 및 라벨 지정을 케이크처럼 쉽게 만드세요. | MIT |
경계 상자 편집기 | 경계 상자를 사용하여 이미지 객체 주석을 생성하기 위한 JavaFX 데스크탑 애플리케이션 | GPL-3 |
캣메이드 | 대량의 이미지 데이터를 위한 협업 주석 도구 키트 | GPL-3 |
COCO 주석자 | 객체 감지, 위치 파악 및 키포인트를 위한 웹 기반 이미지 분할 도구 | MIT |
딥라벨 | 기계 학습을 위한 크로스 플랫폼 데스크탑 이미지 주석 도구 | MIT |
일라스틱 | 세포 또는 기타 실험 데이터를 분할, 분류, 추적 및 계산합니다. | 관습 |
이미지태거 | 협업 이미지 라벨링을 위한 오픈 소스 온라인 플랫폼 | MIT |
imglab | dlib 또는 기타 개체 감지기를 훈련하는 데 사용할 수 있는 개체 이미지에 라벨을 지정하는 웹 기반 도구입니다. | MIT |
크노소스 | 3D 이미지 데이터의 시각화 및 주석을 위한 소프트웨어 도구로, 신경 형태 및 연결성의 신속한 재구성을 위해 개발되었습니다. | GPL-2 |
라벨클라우드 | 포인트 클라우드에서 3D 경계 상자에 라벨을 지정하기 위한 경량 도구 | GPL-3 |
라벨플로우 | 이미지 라벨링을 위한 개방형 플랫폼 | 관습 |
라벨미 | Python을 사용한 이미지 다각형 주석(다각형, 직사각형, 원, 선, 점 및 이미지 수준 플래그 주석) | 관습 |
라벨 이미지 | 이미지의 그래픽 이미지 주석 도구 및 라벨 객체 경계 상자 | MIT |
잃어버린 | 반자동 이미지 주석을 위한 유연한 웹 기반 프레임워크 | MIT |
이해하기 | 사진 라벨링을 위한 무료 온라인 도구 | GPL-3 |
마이비전 | 컴퓨터 비전 기반 ML 학습 데이터 생성 도구 | GPL-3 |
OHIF 의료 영상 뷰어 | OHIF 제로 풋프린트 DICOM 뷰어 및 종양학 관련 병변 추적기 | MIT |
OpenLabeler | AI 애플리케이션용 객체에 주석을 달기 위한 오픈 소스 데스크톱 애플리케이션 | 아파치-2 |
픽사노 | 컴퓨터 비전 애플리케이션을 위한 웹 기반 스마트 주석 도구 | 세실-C |
스칼라벨 | 2D 및 3D 데이터 라벨링을 모두 지원하는 웹 기반 시각적 데이터 주석 도구 | 아파치-2 |
웹크노소스 | 광학 및 전자 현미경 기반 Connectomics에서 분산된 대규모 데이터 분석을 위한 완전한 클라우드 및 브라우저 기반 3D 주석 도구 | AGPL-3 |
Yolo_Label | 신경망 YOLO 훈련을 위해 이미지에 객체의 경계 상자를 표시하기 위한 GUI | MIT |
동영상
이름 | 설명 | 특허 |
---|
잠수 | 웹 및 데스크탑용 미디어 주석 및 분석 도구 | 아파치-2 |
궁극적인 라벨링 | SOTA 감지기 및 추적기가 통합된 Python의 다목적 비디오 라벨링 GUI | MIT |
오디오
이름 | 설명 | 특허 |
---|
아우비오 | 오디오 및 음악 분석을 위한 라이브러리 | GPL-3 |
오디오 | 오픈 소스 오디오 주석 도구 | MIT |
프라트 | 음성학 분석을 위한 주석 도구 | GPL-3 |
Peaks.js | 오디오 파형과 상호작용하기 위한 JavaScript UI 구성요소 | LGPL-3 |
Wavesurfer.js | 웹 오디오 및 캔버스에 구축된 탐색 가능한 파형 | BSD-3 |
시계열
이름 | 설명 | 특허 |
---|
SK타임 | 시계열을 사용한 기계 학습을 위한 프레임워크 | BSD-3 |
다른
이름 | 설명 | 특허 |
---|
구성하다 | 자동화된 예측 엔지니어링. 쉽게 예측 문제를 구성하고 지도 학습을 위한 레이블을 생성할 수 있습니다. | BSD-3 |
인코딩 액티브 | 모델을 테스트, 검증, 평가하고 라벨링을 위한 가장 가치 있는 데이터를 표면화하고 선별하고 우선순위를 지정하는 툴킷 | 아파치-2 |
신경치료 | 3D 이미징 및 주석을 지원하는 뇌 매핑용 주석 소프트웨어 | BSD-2 |
오픈CRAVAT | 게놈 변종을 위한 모듈식 주석 도구 | MIT |
패치 분류기 | 조직학적 개체 라벨링을 위한 오픈 소스 디지털 병리학 도구 | BSD-3 |
개인 암 게놈 리포터(PCGR) | 정밀 암 의학을 위한 개별 종양 게놈 번역을 위한 독립형 소프트웨어 패키지 | MIT |
퀘피드 | 검색 품질에 대한 인간의 판단(명시적 평가라고도 함)을 수집합니다. 또한 검색 알고리즘을 사용해 볼 수 있는 안전한 공간입니다. | 아파치-2 |
감사의 말
우리 자신의 저장소를 만들 수 있도록 도와준 다른 저장소(및 이 저장소!)의 제작자에게 감사드립니다. 저는 이러한 노력을 통해 위에 명시된 오픈 소스 및 기타 기준에 따라 추가, 업데이트 및 정리하기 전에 공간 조사를 시작했습니다.