?开源数据注释和标签工具
在 ZenML,我们相信注释和标签工作流程是机器学习生命周期的核心部分。作为一个开源工具,我们希望强调和认识可帮助您的工作流程变得更加以数据为中心的各种工具。我们有三个核心标准来决定特定工具是否可以进入列表:
- 该工具具有开源许可证。
- 该工具得到积极维护。
- 该工具功能齐全且适合用途。
我们欢迎对此列表做出贡献,因此,如果您知道我们遗漏的工具或者您自己构建了一个工具,请创建一个 PR!
您是否使用这些工具,或者是否想在 MLOps 堆栈中添加一个?在 ZenML,我们正在寻求设计合作伙伴关系和协作,以围绕在 MLOps 生命周期内使用注释来开发集成和工作流程。如果您想了解更多信息,请加入我们的 Slack 并给我们留言!
内容
多模态/多域
姓名 | 描述 | 执照 |
---|
阿查里亚 | 适用于命名实体识别项目的以数据为中心的 MLOps 工具 | ? |
阿达拉 | 自主数据(标签)代理框架。 | 阿帕奇-2 |
克拉斯法伊 | 全面的开源数据标注平台 | 阿帕奇-2 |
计算机视觉标注工具(CVAT) | 用于计算机视觉的免费在线交互式视频和图像注释工具 | 麻省理工学院 |
用于机器学习的数据注释器 (DAML) | 帮助机器学习团队促进注释创建和管理的应用程序 | 阿帕奇-2 |
数据健身房 | 用于图像和视频资产的开源注释和标签工具 | 麻省理工学院 |
差异图 | 所有数据类型(图像、视频、3D、文本、地理、音频等)的大规模训练数据(数据标签、注释、工作流程) | ELv2 |
徘徊 | 在原始数据地图上探索并标记。处理文本、音频和图像。 | 麻省理工学院 |
标签工作室 | 具有标准化输出格式的多类型数据标注和注释工具 | 阿帕奇-2 |
鸽子 | 一个简单的小部件,可让您轻松地在 Jupyter 笔记本上快速注释未标记示例的数据集 | 阿帕奇-2 |
QSL:快速简单的贴标机 | 直接来自 Jupyter 的快速简单的工具,用于标记图像、视频和时间序列数据 | 麻省理工学院 |
舒尼亚 | 大规模注释和标记数据的平台 | 麻省理工学院 |
塔托尔 | 视频分析网络平台 | AGPL-3 |
龙卷风艾 | 人机交互的机器学习框架 | AGPL-3 |
通用数据工具 | 一个 Web/桌面应用程序,用于编辑和注释图像、文本、音频、文档以及查看和编辑可扩展 .udt.json 和 .udt.csv 标准中定义的任何数据 | 麻省理工学院 |
VGG 图像注释器 (VIA) | 独立的图像注释器应用程序打包为单个 HTML 文件 (< 400 KB),可在大多数现代 Web 浏览器上运行 | BSD-2 |
维亚美 | 多种环境的视频和图像分析 | 风俗 |
极限1 | 一款用于多模态数据训练的一体化数据标记和注释平台,支持 3D LiDAR 点云、图像和 LLM | 阿帕奇-2 |
文本
姓名 | 描述 | 执照 |
---|
注释实验室 | spark-nlp 中包含的 NLP 注释工具 | 阿帕奇-2 |
阿尔吉拉 | 一个可用于生产的 Python 框架,用于探索、注释和管理 NLP 项目中的数据 | 阿帕奇-2 |
大部分 | Bulk 是一个快速的开发工具,用于应用一些批量标签 | 麻省理工学院 |
核心自然语言处理 | 一套 Java 核心 NLP 工具 | GPL-3 |
数据质量保证 | 使用弱监督的文本标记平台 | GPL-3 |
多卡诺 | 一款开源文本标注工具,支持文本分类、序列标注和序列到序列任务 | 麻省理工学院 |
FLAT - FoLiA 语言注释工具 | 基于 FoLiA 格式(一种基于 XML 的语言注释格式)的基于 Web 的语言注释环境 | GPL-3 |
开始 | 提供智能标注辅助和知识管理的语义标注平台 | 阿帕奇-2 |
诺德尔 | Knodle(知识监督深度学习框架) | 阿帕奇-2 |
标记 | 基于网络的文档注释工具,由 GPT-4 提供支持 | 未知 |
Spacy 的 NER 注释器 | SpaCy 的 NER Annotator 允许您创建训练数据,以使用自定义标签创建自定义 NER 模型。 | 麻省理工学院 |
NPLM | 噪声部分标签模型(NPLM) | 不适用 |
土豆 | 具有 20 多个模板、可编辑 UI、质量控制、数据管理和添加众包调查选项的注释框架 | PolyForm 屏蔽 |
炼油厂 | 数据科学家用于扩展、评估和维护自然语言数据的开源选择。 | 阿帕奇-2 |
石板 | 适合专家的超轻量级注释工具:仅使用 Python 在终端中标记文本 | 国际标准委员会 |
聪明的 | 用于为 NLP 中的监督机器学习任务构建标记训练数据集的工具 | 麻省理工学院 |
SpaCy注释器 | 使用 ipywidgets 的 Spacy NER 注释器 | 不适用 |
小文本 | 文本分类的主动学习 | 麻省理工学院 |
通气管 | 以编程方式构建和管理培训数据 | 阿帕奇-2 |
斯威克 | skweak:NLP 的监督薄弱 | 麻省理工学院 |
泰伦 | 一种为 NER 进行注释的方法 | 风俗 |
主题 | 用于文本分类的简约 CLI 标签工具 | 麻省理工学院 |
耶达 | 轻量级协作文本跨度注释工具 | 阿帕奇-2 |
黄鼠狼 | WeaSEL:弱监督端到端学习 | 阿帕奇-2 |
图片
姓名 | 描述 | 执照 |
---|
3D切片机 | 医学、生物医学和其他 3D 图像和网格的可视化、处理、分割、配准和分析 | BSD |
注释实验室 | 简化图像注释 | 麻省理工学院 |
臭名昭著 | 用于图像注释的 JavaScript 库 | BSD-3 |
任意标签 | 借助 YOLO、Segment Anything、MobileSAM 的 AI 支持,轻松进行 AI 辅助数据标记 | GPL-3 |
自动蒸馏 | 无标签推理图像(使用基础模型训练监督模型) | 阿帕奇-2 |
bbox-可视化工具 | 让绘制和标记边界框变得简单 | 麻省理工学院 |
边界框编辑器 | 用于创建带有边界框的图像对象注释的 JavaFX 桌面应用程序 | GPL-3 |
猫女 | 海量图像数据协同标注工具包 | GPL-3 |
COCO注释器 | 基于网络的图像分割工具,用于对象检测、定位和关键点 | 麻省理工学院 |
深度标签 | 用于机器学习的跨平台桌面图像标注工具 | 麻省理工学院 |
伊拉斯提克 | 对细胞或其他实验数据进行分割、分类、跟踪和计数 | 风俗 |
图像标记器 | 用于协作图像标记的开源在线平台 | 麻省理工学院 |
图像实验室 | 一种基于网络的工具,用于标记物体图像,可用于训练 dlib 或其他物体检测器 | 麻省理工学院 |
克诺索斯 | 用于 3D 图像数据可视化和注释的软件工具,专为快速重建神经形态和连接性而开发 | GPL-2 |
标签云 | 用于在点云中标记 3D 边界框的轻量级工具 | GPL-3 |
标签流 | 图像标注的开放平台 | 风俗 |
标签我 | 使用Python进行图像多边形标注(多边形、矩形、圆、线、点和图像级标志标注) | 风俗 |
标签图像 | 图形图像注释工具和标签图像中的对象边界框 | 麻省理工学院 |
丢失的 | 一个灵活的基于网络的半自动图像注释框架 | 麻省理工学院 |
有意义 | 用于标记照片的免费在线工具 | GPL-3 |
我的愿景 | 基于计算机视觉的机器学习训练数据生成工具 | GPL-3 |
OHIF 医学影像查看器 | OHIF 零占用空间 DICOM 查看器和肿瘤学专用病变跟踪器 | 麻省理工学院 |
开放贴标机 | 用于为 AI 应用程序注释对象的开源桌面应用程序 | 阿帕奇-2 |
皮克萨诺 | 用于计算机视觉应用的基于网络的智能注释工具 | CeCILL-C |
标尺 | 基于Web的可视化数据标注工具,支持2D和3D数据标注 | 阿帕奇-2 |
网络克诺索斯 | 完全基于云和浏览器的 3D 注释工具,用于基于光学和电子显微镜的 Connectomics 中的分布式大规模数据分析 | AGPL-3 |
Yolo_Label | 用于标记图像中对象的有界框以训练神经网络 YOLO 的 GUI | 麻省理工学院 |
视频
姓名 | 描述 | 执照 |
---|
潜水 | 适用于 Web 和桌面的媒体注释和分析工具 | 阿帕奇-2 |
终极标签 | Python 中的多用途视频标签 GUI,带有集成的 SOTA 检测器和跟踪器 | 麻省理工学院 |
声音的
姓名 | 描述 | 执照 |
---|
奥比奥 | 用于音频和音乐分析的库 | GPL-3 |
奥迪诺 | 开源音频注释工具 | 麻省理工学院 |
普拉特 | 语音分析标注工具 | GPL-3 |
Peaks.js | 用于与音频波形交互的 JavaScript UI 组件 | LGPL-3 |
Wavesurfer.js | 基于 Web Audio 和 Canvas 构建的可导航波形 | BSD-3 |
时间序列
其他
姓名 | 描述 | 执照 |
---|
撰写 | 自动预测工程。允许您轻松构建预测问题并生成用于监督学习的标签 | BSD-3 |
录制活动 | 用于测试、验证和评估模型的工具包,并展示、整理和优先考虑最有价值的标签数据 | 阿帕奇-2 |
神经特拉尔 | 脑图标注软件,支持3D成像和标注 | BSD-2 |
开放克拉瓦特 | 基因组变异的模块化注释工具 | 麻省理工学院 |
补丁分拣机 | 用于组织学对象标记的开源数字病理学工具 | BSD-3 |
个人癌症基因组报告器 (PCGR) | 用于翻译个体肿瘤基因组以实现精准癌症医学的独立软件包 | 麻省理工学院 |
奎皮德 | 收集人类判断(又名显式评级)以提高搜索质量。也是一个使用搜索算法的安全空间。 | 阿帕奇-2 |
致谢
感谢这些其他存储库(以及这个存储库!)的创建者让我们走上了创建自己的存储库的道路。我利用这些努力开始对该领域的调查,然后根据开源和上面指定的其他标准进行添加、更新和修剪。