?開源資料註釋和標籤工具
在 ZenML,我們相信註解和標籤工作流程是機器學習生命週期的核心部分。作為一個開源工具,我們希望強調和認識可幫助您的工作流程變得更加以資料為中心的各種工具。我們有三個核心標準來決定特定工具是否可以進入清單:
- 該工具具有開源許可證。
- 該工具得到積極維護。
- 該工具功能齊全且適合用途。
我們歡迎對此清單做出貢獻,因此,如果您知道我們遺漏的工具或您自己建立了一個工具,請建立 PR!
您是否使用這些工具,或者是否想在 MLOps 堆疊中新增一個?在 ZenML,我們正在尋求設計合作夥伴關係和協作,以圍繞在 MLOps 生命週期內使用註釋來開發整合和工作流程。如果您想了解更多信息,請加入我們的 Slack 並給我們留言!
內容
多模態/多域
姓名 | 描述 | 執照 |
---|
阿查里亞 | 適用於命名實體識別項目的以資料為中心的 MLOps 工具 | ? |
阿達拉 | 自主資料(標籤)代理框架。 | 阿帕契-2 |
克拉斯法伊 | 全面的開源資料標註平台 | 阿帕契-2 |
電腦視覺標註工具(CVAT) | 用於電腦視覺的免費線上互動式影片和圖像註釋工具 | 麻省理工學院 |
用於機器學習的資料註釋器 (DAML) | 幫助機器學習團隊促進註釋創建和管理的應用程序 | 阿帕契-2 |
數據健身房 | 用於圖像和視訊資產的開源註釋和標籤工具 | 麻省理工學院 |
差異圖 | 所有資料類型(圖像、視訊、3D、文字、地理、音訊等)的大規模訓練資料(資料標籤、註釋、工作流程) | ELv2 |
徘徊 | 在原始資料地圖上探索並標記。處理文字、音訊和圖像。 | 麻省理工學院 |
標籤工作室 | 具有標準化輸出格式的多類型資料標註和註釋工具 | 阿帕契-2 |
鴿子 | 一個簡單的小部件,可讓您輕鬆地在 Jupyter 筆記本上快速註釋未標記範例的資料集 | 阿帕契-2 |
QSL:快速簡單的貼標機 | 直接來自 Jupyter 的快速簡單的工具,用於標記圖像、視訊和時間序列數據 | 麻省理工學院 |
舒尼亞 | 大規模註釋和標記資料的平台 | 麻省理工學院 |
塔托爾 | 視訊分析網路平台 | AGPL-3 |
龍捲風艾 | 人機互動的機器學習框架 | AGPL-3 |
通用資料工具 | 一個 Web/桌面應用程序,用於編輯和註釋圖像、文字、音訊、文件以及檢視和編輯可擴展 .udt.json 和 .udt.csv 標準中定義的任何數據 | 麻省理工學院 |
VGG 影像註釋器 (VIA) | 獨立的圖像註釋器應用程式會打包為單一 HTML 檔案 (< 400 KB),可在大多數現代 Web 瀏覽器上執行 | BSD-2 |
維亞美 | 多種環境的視訊和影像分析 | 風俗 |
極限1 | 一款用於多模態資料訓練的一體化資料標記和註釋平台,支援 3D LiDAR 點雲、影像和 LLM | 阿帕契-2 |
文字
姓名 | 描述 | 執照 |
---|
註釋實驗室 | spark-nlp 中包含的 NLP 註解工具 | 阿帕契-2 |
阿爾吉拉 | 一個可用於生產的 Python 框架,用於探索、註釋和管理 NLP 專案中的數據 | 阿帕契-2 |
大部分 | Bulk 是一個快速的開發工具,用於應用一些批量標籤 | 麻省理工學院 |
核心自然語言處理 | 一套 Java 核心 NLP 工具 | GPL-3 |
數據品質保證 | 使用弱監督的文本標記平台 | GPL-3 |
多卡諾 | 一個開源文字標註工具,支援文字分類、序列標註和序列到序列任務 | 麻省理工學院 |
FLAT - FoLiA 語言註釋工具 | 基於 FoLiA 格式(基於 XML 的語言註解格式)的基於 Web 的語言註解環境 | GPL-3 |
開始 | 提供智慧標註輔助與知識管理的語意標註平台 | 阿帕契-2 |
諾德爾 | Knodle(知識監督深度學習架構) | 阿帕契-2 |
標記 | 基於網路的文檔註釋工具,由 GPT-4 提供支援 | 未知 |
Spacy 的 NER 註釋器 | SpaCy 的 NER Annotator 可讓您建立訓練數據,以使用自訂標籤建立自訂 NER 模型。 | 麻省理工學院 |
NPLM | 噪音部分標籤模型(NPLM) | 不適用 |
馬鈴薯 | 具有 20 多個範本、可編輯 UI、品質控制、資料管理和新增眾包調查選項的註釋框架 | PolyForm 封鎖 |
煉油廠 | 資料科學家用於擴展、評估和維護自然語言資料的開源選擇。 | 阿帕契-2 |
石板 | 適合專家的超輕量級註釋工具:僅使用 Python 在終端機中標記文本 | 國際標準委員會 |
聰明的 | 用於為 NLP 中的監督機器學習任務建立標記訓練資料集的工具 | 麻省理工學院 |
SpaCy註釋器 | 使用 ipywidgets 的 Spacy NER 註釋器 | 不適用 |
小文字 | 文本分類的主動學習 | 麻省理工學院 |
通氣管 | 以程式設計方式建構和管理培訓數據 | 阿帕契-2 |
斯威克 | skweak:NLP 的監督薄弱 | 麻省理工學院 |
泰倫 | 一種為 NER 進行註釋的方法 | 風俗 |
主題 | 用於文字分類的簡約 CLI 標籤工具 | 麻省理工學院 |
耶達 | 輕量級協作文字跨距註解工具 | 阿帕契-2 |
黃鼠狼 | WeaSEL:弱監督端對端學習 | 阿帕契-2 |
圖片
姓名 | 描述 | 執照 |
---|
3D切片機 | 醫學、生物醫學和其他 3D 影像和網格的可視化、處理、分割、配準和分析 | BSD |
註釋實驗室 | 簡化圖像註釋 | 麻省理工學院 |
臭名昭著 | 用於圖像註解的 JavaScript 程式庫 | BSD-3 |
任意標籤 | 透過 YOLO、Segment Anything、MobileSAM 的 AI 支持,輕鬆進行 AI 輔助資料標記 | GPL-3 |
自動蒸餾 | 無標籤推理圖像(使用基礎模型訓練監督模型) | 阿帕契-2 |
bbox-視覺化工具 | 讓繪製和標記邊界框變得簡單 | 麻省理工學院 |
邊界框編輯器 | 用於建立帶有邊界框的圖像物件註釋的 JavaFX 桌面應用程式 | GPL-3 |
貓女 | 海量影像資料協同標註工具包 | GPL-3 |
COCO註解器 | 基於網路的影像分割工具,用於物件偵測、定位和關鍵點 | 麻省理工學院 |
深度標籤 | 用於機器學習的跨平台桌面圖像標註工具 | 麻省理工學院 |
伊拉斯提克 | 將細胞或其他實驗數據進行分割、分類、追蹤和計數 | 風俗 |
影像標記器 | 用於協作影像標記的開源線上平台 | 麻省理工學院 |
影像實驗室 | 一種基於網路的工具,用於標記物件影像,可用於訓練 dlib 或其他物體偵測器 | 麻省理工學院 |
克諾索斯 | 用於 3D 影像資料視覺化和註釋的軟體工具,專為快速重建神經形態和連接性而開發 | GPL-2 |
標籤雲 | 用於在點雲中標記 3D 邊界框的輕量級工具 | GPL-3 |
標籤流 | 影像標註的開放平台 | 風俗 |
標籤我 | 使用Python進行影像多邊形標註(多邊形、矩形、圓、線、點和影像級標誌標註) | 風俗 |
標籤影像 | 圖形圖像註釋工具和標籤圖像中的物件邊界框 | 麻省理工學院 |
遺失的 | 一個靈活的基於網路的半自動圖像註釋框架 | 麻省理工學院 |
有意義 | 用於標記照片的免費線上工具 | GPL-3 |
我的願景 | 基於電腦視覺的機器學習訓練資料產生工具 | GPL-3 |
OHIF 醫學影像檢視器 | OHIF 零佔用空間 DICOM 檢視器和腫瘤學專用病變追蹤器 | 麻省理工學院 |
開放貼標機 | 用於為 AI 應用程式註釋物件的開源桌面應用程式 | 阿帕契-2 |
皮克薩諾 | 用於電腦視覺應用的基於網路的智慧註釋工具 | CeCILL-C |
標尺 | 基於Web的可視化資料標註工具,支援2D和3D資料標註 | 阿帕契-2 |
網路克諾索斯 | 完全基於雲端和瀏覽器的 3D 註釋工具,用於基於光學和電子顯微鏡的 Connectomics 中的分散式大規模資料分析 | AGPL-3 |
Yolo_Label | 用於標記影像中物件的有界框以訓練神經網路 YOLO 的 GUI | 麻省理工學院 |
影片
姓名 | 描述 | 執照 |
---|
潛水 | 適用於 Web 和桌面的媒體註解和分析工具 | 阿帕契-2 |
終極標籤 | Python 中的多用途視訊標籤 GUI,帶有整合的 SOTA 偵測器和追蹤器 | 麻省理工學院 |
聲音的
姓名 | 描述 | 執照 |
---|
奧比奧 | 用於音訊和音樂分析的庫 | GPL-3 |
奧迪諾 | 開源音訊註釋工具 | 麻省理工學院 |
普拉特 | 語音分析標註工具 | GPL-3 |
Peaks.js | 用於與音訊波形互動的 JavaScript UI 元件 | LGPL-3 |
Wavesurfer.js | 基於 Web Audio 和 Canvas 建構的可導航波形 | BSD-3 |
時間序列
其他
姓名 | 描述 | 執照 |
---|
撰寫 | 自動預測工程。允許您輕鬆建立預測問題並產生用於監督學習的標籤 | BSD-3 |
錄製活動 | 用於測試、驗證和評估模型以及展示、整理和優先考慮最有價值的標籤資料的工具包 | 阿帕契-2 |
神經特拉爾 | 腦部圖示註軟體,支援3D影像與標註 | BSD-2 |
開放克拉瓦特 | 基因組變異的模組化註釋工具 | 麻省理工學院 |
補丁分類機 | 用於組織學物件標記的開源數位病理學工具 | BSD-3 |
個人癌症基因組報告者 (PCGR) | 用於翻譯個別腫瘤基因組以實現精準癌症醫學的獨立軟體包 | 麻省理工學院 |
奎皮德 | 收集人類判斷(又稱顯式評級)以提高搜尋品質。也是使用搜尋演算法的安全空間。 | 阿帕契-2 |
致謝
感謝這些其他存儲庫(以及這個存儲庫!)的創建者讓我們走上了創建自己的存儲庫的道路。我利用這些努力開始對該領域的調查,然後根據開源和上面指定的其他標準進行添加、更新和修剪。