? Инструменты аннотации и маркировки данных с открытым исходным кодом
В ZenML мы считаем, что рабочие процессы аннотирования и маркировки являются основной частью жизненного цикла машинного обучения. Поскольку это инструмент с открытым исходным кодом, мы хотели выделить и отметить разнообразие доступных инструментов, которые помогут вашим рабочим процессам стать более ориентированными на данные. У нас было три основных критерия, чтобы решить, может ли конкретный инструмент попасть в список:
- Инструмент имеет лицензию с открытым исходным кодом.
- Инструмент активно поддерживается.
- Инструмент функционален и соответствует своему назначению.
Мы приветствуем вклад в этот список, поэтому, если вы знаете об инструменте, который мы пропустили, или если вы создали его самостоятельно, пожалуйста, создайте PR!
Используете ли вы эти инструменты или хотите добавить их в свой стек MLOps? В ZenML мы ищем партнерские отношения и сотрудничество в сфере разработки для разработки интеграции и рабочих процессов, связанных с использованием аннотаций в жизненном цикле MLOps. Если вы хотите узнать больше, присоединяйтесь к нашему Slack и оставьте нам сообщение!
Содержание
- Мультимодальный / мультидоменный
- Текст
- Изображения
- Аудио
- Видео
- Временной ряд
- Другой
Мультимодальный / мультидоменный
Имя | Описание | Лицензия |
---|
Ачарья | Инструмент Data Centric MLOps для ваших проектов по распознаванию именованных объектов. | ? |
Адала | Структура автономного агента данных (маркировки). | Апач-2 |
Классифай | Комплексная платформа аннотирования данных с открытым исходным кодом. | Апач-2 |
Инструмент аннотаций компьютерного зрения (CVAT) | Бесплатный интерактивный онлайн-инструмент для аннотирования видео и изображений для компьютерного зрения. | Массачусетский технологический институт |
Аннотатор данных для машинного обучения (DAML) | Приложение, которое помогает командам машинного обучения создавать аннотации и управлять ими. | Апач-2 |
DataGym | Инструмент с открытым исходным кодом для аннотаций и маркировки изображений и видеоресурсов. | Массачусетский технологический институт |
Диффграмма | Данные обучения (маркировка данных, аннотации, рабочий процесс) для всех типов данных (изображение, видео, 3D, текст, гео, аудио и т. д.) в масштабе | ЭЛв2 |
Наведите указатель мыши | Исследуйте и отмечайте на карте необработанные данные. Обрабатывает текст, аудио и изображения. | Массачусетский технологический институт |
Этикетка Студия | Многотипный инструмент для маркировки и аннотирования данных со стандартизированным форматом вывода. | Апач-2 |
Голубь | Простой виджет, который позволяет быстро комментировать набор данных немаркированных примеров, не выходя из блокнота Jupyter. | Апач-2 |
QSL: Быстрый и простой этикетировщик | Быстрый и простой инструмент для маркировки изображений, видео и данных временных рядов прямо из Jupyter. | Массачусетский технологический институт |
Шунья | Платформа для аннотирования и маркировки данных в любом масштабе | Массачусетский технологический институт |
Татор | Веб-платформа видеоаналитики | АГПЛ-3 |
ТорнадоАй | Платформа машинного обучения с участием человека | АГПЛ-3 |
Универсальный инструмент обработки данных | Веб-приложение или настольное приложение для редактирования и аннотирования изображений, текста, аудио и документов, а также для просмотра и редактирования любых данных, определенных в расширяемых стандартах .udt.json и .udt.csv. | Массачусетский технологический институт |
Аннотатор изображений VGG (VIA) | Автономное приложение для аннотирования изображений, упакованное в один HTML-файл (< 400 КБ), работающее в большинстве современных веб-браузеров. | БСД-2 |
ВИАМЭ | Аналитика видео и изображений для различных сред | Обычай |
Экстрим1 | Универсальная платформа для маркировки и аннотирования данных для обучения мультимодальным данным, поддерживающая облако точек 3D LiDAR, изображения и LLM. | Апач-2 |
Текст
Имя | Описание | Лицензия |
---|
Аннотационная лаборатория | Инструмент аннотаций НЛП, включенный в spark-nlp | Апач-2 |
Аргилла | Готовая к использованию среда Python для исследования, аннотирования и управления данными в проектах НЛП. | Апач-2 |
масса | Bulk — это быстрый инструмент разработчика, позволяющий применять массовые метки. | Массачусетский технологический институт |
CoreNLP | Java-набор основных инструментов НЛП. | GPL-3 |
Качество данных | Платформа маркировки текста с использованием слабого контроля | GPL-3 |
докано | Инструмент текстовых аннотаций с открытым исходным кодом, поддерживающий классификацию текста, маркировку последовательностей и задачи последовательности для последовательности. | Массачусетский технологический институт |
FLAT — инструмент лингвистических аннотаций FoLiA | Интернет-среда лингвистических аннотаций, основанная на формате FoLiA, формате лингвистических аннотаций на основе XML. | GPL-3 |
Зарождение | Платформа семантических аннотаций, предлагающая интеллектуальную помощь в создании аннотаций и управление знаниями. | Апач-2 |
сгибать | Knodle (структура глубокого обучения под контролем знаний) | Апач-2 |
Разметка | Веб-инструмент для аннотирования документов на базе GPT-4. | Неизвестный |
Аннотатор NER для Spacy | NER Annotator для SpaCy позволяет создавать обучающие данные для создания пользовательской модели NER с настраиваемыми тегами. | Массачусетский технологический институт |
НПЛМ | Модель частичной шумной метки (NPLM) | Н/Д |
Картофель | Платформа аннотаций с более чем 20 шаблонами, редактируемым пользовательским интерфейсом, контролем качества, управлением данными и возможностью добавления опроса для краудсорсинга. | ПолиФорм Щит |
нефтеперерабатывающий завод | Выбор специалиста по обработке данных с открытым исходным кодом для масштабирования, оценки и поддержки данных на естественном языке. | Апач-2 |
Шифер | Сверхлегкий инструмент аннотаций для экспертов: помечайте текст в терминале с помощью только Python | ISC |
УМНЫЙ | Инструмент для создания помеченных наборов обучающих данных для контролируемых задач машинного обучения в НЛП. | Массачусетский технологический институт |
Аннотатор SpaCy | Аннотатор Spacy NER с использованием ipywidgets | Н/Д |
Мелкий текст | Активное обучение классификации текста | Массачусетский технологический институт |
трубка | Программное создание обучающих данных и управление ими | Апач-2 |
слабак | skweak: Слабый надзор за НЛП. | Массачусетский технологический институт |
ТАЛЕН | Способ делать аннотации для NER | Обычай |
Тема | Минималистичный инструмент маркировки CLI для классификации текста | Массачусетский технологический институт |
ЙЕДДА | Легкий инструмент для совместной работы с текстовыми аннотациями. | Апач-2 |
WeaSEL | WeaSEL: сквозное обучение со слабым контролем | Апач-2 |
Изображения
Имя | Описание | Лицензия |
---|
3D-слайсер | Визуализация, обработка, сегментация, регистрация и анализ медицинских, биомедицинских и других 3D-изображений и сеток. | БСД |
Аннотировать лабораторию | Упрощение аннотаций изображений | Массачусетский технологический институт |
Анноторный | Библиотека JavaScript для аннотаций изображений. | БСД-3 |
Любая маркировка | Удобная маркировка данных с помощью ИИ с поддержкой ИИ от YOLO, Segment Anything, MobileSAM | GPL-3 |
автодистилляция | Изображения для вывода без маркировки (используйте базовые модели для обучения контролируемых моделей) | Апач-2 |
bbox-визуализатор | Сделайте рисование и маркировку ограничивающих рамок проще простого | Массачусетский технологический институт |
Редактор ограничивающей рамки | Настольное приложение JavaFX для создания аннотаций изображений-объектов с ограничивающими рамками. | GPL-3 |
КОШКА | Набор инструментов для совместной аннотации для больших объемов данных изображений | GPL-3 |
КОКО Аннотатор | Веб-инструмент сегментации изображений для обнаружения, локализации и ключевых точек объектов. | Массачусетский технологический институт |
ДипЛейбл | Кроссплатформенный инструмент аннотирования изображений на рабочем столе для машинного обучения. | Массачусетский технологический институт |
иластик | Сегментируйте, классифицируйте, отслеживайте и подсчитывайте свои клетки или другие экспериментальные данные. | Обычай |
ИзображениеTagger | Онлайн-платформа с открытым исходным кодом для совместной маркировки изображений. | Массачусетский технологический институт |
imglab | Веб-инструмент для маркировки изображений объектов, который можно использовать для обучения dlib или других детекторов объектов. | Массачусетский технологический институт |
КНОССОС | Программный инструмент для визуализации и аннотирования данных трехмерных изображений, разработанный для быстрой реконструкции морфологии и связности нейронов. | GPL-2 |
меткаОблако | Легкий инструмент для маркировки трехмерных ограничивающих рамок в облаках точек. | GPL-3 |
МеткаFlow | Открытая платформа для маркировки изображений | Обычай |
ярлык меня | Полигональная аннотация изображения с помощью Python (многоугольник, прямоугольник, круг, линия, точка и аннотация флага на уровне изображения) | Обычай |
МеткаImg | Инструмент графических аннотаций изображений и ограничивающих рамок объектов меток на изображениях. | Массачусетский технологический институт |
ПОТЕРЯННЫЙ | Гибкая веб-инфраструктура для полуавтоматического аннотирования изображений. | Массачусетский технологический институт |
Иметь смысл | Бесплатный онлайн-инструмент для маркировки фотографий. | GPL-3 |
MyVision | Инструмент создания обучающих данных машинного обучения на основе компьютерного зрения | GPL-3 |
Программа просмотра медицинских изображений OHIF | Программа просмотра DICOM OHIF с нулевыми затратами и специальное средство отслеживания онкологических заболеваний Lesion Tracker | Массачусетский технологический институт |
OpenLabeler | Настольное приложение с открытым исходным кодом для аннотирования объектов для приложений искусственного интеллекта. | Апач-2 |
Пиксано | Веб-инструмент интеллектуальных аннотаций для приложений компьютерного зрения. | CeCILL-C |
Скалабель | Веб-инструмент для визуального аннотирования данных, поддерживающий маркировку как 2D, так и 3D данных. | Апач-2 |
вебКноссос | Полностью облачный и браузерный инструмент 3D-аннотаций для распределенного крупномасштабного анализа данных в Connectomics на основе световой и электронной микроскопии. | АГПЛ-3 |
Yolo_Label | Графический интерфейс для маркировки ограниченных прямоугольников объектов на изображениях для обучения нейросети YOLO | Массачусетский технологический институт |
Видео
Имя | Описание | Лицензия |
---|
ПОГРУЖЕНИЕ | Инструменты аннотирования и анализа мультимедиа для Интернета и настольных компьютеров | Апач-2 |
Окончательная маркировка | Многоцелевой графический интерфейс маркировки видео на Python со встроенным детектором и трекером SOTA. | Массачусетский технологический институт |
Аудио
Имя | Описание | Лицензия |
---|
Обио | Библиотека для анализа аудио и музыки. | GPL-3 |
аудио | Инструмент для создания аудиоаннотаций с открытым исходным кодом | Массачусетский технологический институт |
Праат | Инструмент аннотаций для фонетического анализа | GPL-3 |
Пикс.js | Компонент пользовательского интерфейса JavaScript для взаимодействия с аудиосигналами. | ЛГПЛ-3 |
Wavesurfer.js | Навигационная форма сигнала, созданная на основе веб-аудио и Canvas. | БСД-3 |
Временной ряд
Имя | Описание | Лицензия |
---|
Сктайм | Платформа для машинного обучения с временными рядами | БСД-3 |
Другой
Имя | Описание | Лицензия |
---|
Сочинить | Автоматизированное прогнозирование. Позволяет легко структурировать задачи прогнозирования и создавать метки для контролируемого обучения. | БСД-3 |
Энкорд Актив | Набор инструментов для тестирования, проверки и оценки ваших моделей, а также выявления, отбора и определения приоритетности наиболее ценных данных для маркировки. | Апач-2 |
НейроТРЕЙЛ | Программное обеспечение для аннотаций для картирования мозга с поддержкой 3D-изображений и аннотаций. | БСД-2 |
OpenCRAVAT | Модульный инструмент аннотации для геномных вариантов | Массачусетский технологический институт |
Сортировщик патчей | Инструмент цифровой патологии с открытым исходным кодом для маркировки гистологических объектов. | БСД-3 |
Персональный репортер генома рака (PCGR) | Автономный программный пакет для трансляции отдельных геномов опухолей для прецизионной медицины рака. | Массачусетский технологический институт |
Кепид | Собирайте человеческие суждения (так называемые явные рейтинги) для качества поиска. Также безопасное место для игры с вашим алгоритмом поиска. | Апач-2 |
Благодарности
Спасибо создателям этих других репозиториев (и этого!) за то, что они помогли нам пойти по пути создания наших собственных. Я приложил эти усилия, чтобы начать исследование этого пространства, прежде чем добавлять, обновлять и сокращать его в соответствии с критериями открытого исходного кода и другими критериями, указанными выше.