?オープンソース データの注釈およびラベル付けツール
ZenML では、アノテーションとラベル付けのワークフローが機械学習ライフサイクルの中核部分であると考えています。オープンソース ツールとして、ワークフローをよりデータ中心にするために利用できるさまざまなツールを強調し、認識したいと考えました。特定のツールがリストに含まれるかどうかを決定するための 3 つの主要な基準がありました。
- このツールにはオープンソース ライセンスが付いています。
- このツールは積極的にメンテナンスされています。
- このツールは機能的で、目的に適しています。
このリストへの貢献を歓迎します。そのため、私たちが見逃しているツールを知っている場合、または自分でツールを構築した場合は、ぜひ PR を作成してください。
これらのツールを使用しますか? それとも MLOps スタックにツールを追加しますか? ZenML では、MLOps ライフサイクル内でのアノテーションの使用に関する統合とワークフローを開発するための設計パートナーシップとコラボレーションを探しています。さらに詳しく知りたい場合は、Slack に参加してメッセージを残してください。
コンテンツ
- マルチモーダル/マルチドメイン
- 文章
- 画像
- オーディオ
- ビデオ
- 時系列
- 他の
マルチモーダル/マルチドメイン
名前 | 説明 | ライセンス |
---|
アチャリヤ | 固有表現認識プロジェクト用のデータ中心の MLOps ツール | ? |
アダラ | Autonomous Data (Labeling) Agent フレームワーク。 | アパッチ-2 |
クラシファイ | 包括的なオープンソース データ アノテーション プラットフォーム | アパッチ-2 |
コンピューター ビジョン アノテーション ツール (CVAT) | コンピューター ビジョン用の無料のオンライン、インタラクティブなビデオと画像の注釈ツール | マサチューセッツ工科大学 |
機械学習用データ アノテーター (DAML) | 機械学習チームがアノテーションの作成と管理を容易にするのに役立つアプリケーション | アパッチ-2 |
データジム | 画像およびビデオアセット用のオープンソースの注釈およびラベル付けツール | マサチューセッツ工科大学 |
ディフグラム | すべてのデータ タイプ (画像、ビデオ、3D、テキスト、地理、オーディオなど) を大規模にトレーニング データ (データ ラベル、注釈、ワークフロー) | ELv2 |
ホバー | 生データのマップを探索してラベルを付けます。テキスト、音声、画像を扱います。 | マサチューセッツ工科大学 |
ラベルスタジオ | 標準化された出力形式を備えたマルチタイプのデータラベル付けおよび注釈ツール | アパッチ-2 |
鳩 | Jupyter ノートブックを快適に使用して、ラベルのないサンプルのデータセットにすばやく注釈を付けることができるシンプルなウィジェット | アパッチ-2 |
QSL: 素早く簡単なラベラー | Jupyter から直接画像、ビデオ、時系列データにラベルを付けるための迅速かつシンプルなツール | マサチューセッツ工科大学 |
しょーにゃ | 大規模なデータに注釈を付け、ラベルを付けるためのプラットフォーム | マサチューセッツ工科大学 |
テイター | ビデオ分析 Web プラットフォーム | AGPL-3 |
トルネードアイ | 人間参加型の機械学習フレームワーク | AGPL-3 |
ユニバーサルデータツール | 画像、テキスト、オーディオ、ドキュメントを編集および注釈付けし、拡張可能な .udt.json および .udt.csv 標準で定義されたデータを表示および編集するための Web/デスクトップ アプリ | マサチューセッツ工科大学 |
VGG 画像アノテーター (VIA) | ほとんどの最新の Web ブラウザで実行できる単一の HTML ファイル (< 400 KB) としてパッケージ化されたスタンドアロンの画像アノテーター アプリケーション | BSD-2 |
ヴィアメ | 複数の環境向けのビデオと画像の分析 | カスタム |
エクストリーム1 | マルチモーダル データ トレーニング用のオールインワン データ ラベル付けおよび注釈プラットフォームで、3D LiDAR 点群、画像、LLM をサポート | アパッチ-2 |
文章
名前 | 説明 | ライセンス |
---|
アノテーションラボ | spark-nlp に含まれる NLP アノテーション ツール | アパッチ-2 |
アルギラ | NLP プロジェクトのデータを探索、注釈付け、管理するための本番環境に対応した Python フレームワーク | アパッチ-2 |
バルク | Bulk は、一括ラベルを適用するための迅速な開発者ツールです。 | マサチューセッツ工科大学 |
コアNLP | コア NLP ツールの Java スイート | GPL-3 |
データQA | 弱い監視を使用したテキストのラベル付けプラットフォーム | GPL-3 |
ドッカノ | テキスト分類、シーケンスのラベル付け、シーケンス間タスクをサポートするオープンソースのテキスト注釈ツール | マサチューセッツ工科大学 |
FLAT - FoLiA 言語注釈ツール | FoLiA 形式 (言語注釈用の XML ベースの形式) をベースにした Web ベースの言語注釈環境 | GPL-3 |
インセプション | インテリジェントな注釈支援とナレッジ管理を提供するセマンティック注釈プラットフォーム | アパッチ-2 |
節 | Knodle (知識教師あり深層学習フレームワーク) | アパッチ-2 |
マークアップ | GPT-4 を利用した Web ベースのドキュメント注釈ツール | 未知 |
Spacy の NER アノテーター | NER Annotator for SpaCy を使用すると、カスタム タグを使用してカスタム NER モデルを作成するためのトレーニング データを作成できます。 | マサチューセッツ工科大学 |
NPLM | ノイズの多い部分ラベル モデル(NPLM) | 該当なし |
じゃがいも | 20 を超えるテンプレート、編集可能な UI、品質管理、データ管理、クラウドソーシング用のアンケートを追加するオプションを備えたアノテーション フレームワーク | ポリフォームシールド |
製油所 | データ サイエンティストは、自然言語データを拡張、評価、維持するためにオープンソースを選択しました。 | アパッチ-2 |
スレート | 専門家向けの超軽量アノテーション ツール: Python だけでターミナル内のテキストにラベルを付ける | ISC |
頭いい | NLP の教師あり機械学習タスク用のラベル付きトレーニング データセットを構築するためのツール | マサチューセッツ工科大学 |
SpaCy アノテーター | ipywidgets を使用した Spacy NER アノテーター | 該当なし |
小さな文字 | テキスト分類のためのアクティブ ラーニング | マサチューセッツ工科大学 |
スノーケル | プログラムによるトレーニング データの構築と管理 | アパッチ-2 |
弱い | skweak: NLP の監視が弱い | マサチューセッツ工科大学 |
タレン | NER のアノテーションを行う方法 | カスタム |
テーマ | テキスト分類のための最小限の CLI ラベル付けツール | マサチューセッツ工科大学 |
イェッダ | 軽量の共同テキスト スパン注釈ツール | アパッチ-2 |
WeaSEL | WeaSEL: 弱く監視されたエンドツーエンド学習 | アパッチ-2 |
画像
名前 | 説明 | ライセンス |
---|
3Dスライサー | 医療、生物医学、その他の 3D 画像とメッシュの視覚化、処理、セグメンテーション、登録、分析 | BSD |
注釈ラボ | 画像注釈の簡素化 | マサチューセッツ工科大学 |
悪名高い | 画像アノテーション用の JavaScript ライブラリ | BSD-3 |
任意のラベル付け | YOLO、Segment Anything、MobileSAM による AI サポートによる、AI 支援による簡単なデータラベル付け | GPL-3 |
自動蒸留 | ラベルなしで推論する画像 (教師ありモデルをトレーニングするために基礎モデルを使用) | アパッチ-2 |
bbox ビジュアライザー | 境界ボックスの描画とラベル付けをケーキのように簡単にします | マサチューセッツ工科大学 |
バウンディングボックスエディタ | 境界ボックスを使用して画像オブジェクトの注釈を作成するための JavaFX デスクトップ アプリケーション | GPL-3 |
キャットメイド | 大量の画像データ用の共同注釈ツールキット | GPL-3 |
COCO アノテーター | オブジェクトの検出、位置特定、キーポイントのための Web ベースの画像セグメンテーション ツール | マサチューセッツ工科大学 |
ディープラベル | 機械学習用のクロスプラットフォームのデスクトップ画像注釈ツール | マサチューセッツ工科大学 |
イラスティック | 細胞やその他の実験データをセグメント化、分類、追跡、カウントします | カスタム |
イメージタガー | 共同画像ラベル付けのためのオープンソースのオンライン プラットフォーム | マサチューセッツ工科大学 |
画像 | dlib または他のオブジェクト検出器のトレーニングに使用できる、オブジェクトの画像にラベルを付けるための Web ベースのツール | マサチューセッツ工科大学 |
クノッソス | 3D 画像データの視覚化と注釈付けのためのソフトウェア ツールで、神経形態と接続性を迅速に再構築するために開発されました。 | GPL-2 |
ラベルクラウド | 点群内の 3D 境界ボックスにラベルを付けるための軽量ツール | GPL-3 |
ラベルフロー | 画像ラベル付けのためのオープン プラットフォーム | カスタム |
ラベルミー | Python による画像の多角形の注釈 (多角形、長方形、円、線、点、および画像レベルのフラグの注釈) | カスタム |
ラベル画像 | グラフィカル画像注釈ツールと画像内のラベル オブジェクト境界ボックス | マサチューセッツ工科大学 |
失った | 半自動画像注釈のための柔軟な Web ベースのフレームワーク | マサチューセッツ工科大学 |
意味をなす | 写真にラベルを付けるための無料のオンライン ツール | GPL-3 |
マイビジョン | コンピュータビジョンベースのMLトレーニングデータ生成ツール | GPL-3 |
OHIF医用画像ビューア | OHIF ゼロフットプリント DICOM ビューアおよび腫瘍学固有の病変トラッカー | マサチューセッツ工科大学 |
OpenLabeler | AI アプリケーションのオブジェクトに注釈を付けるためのオープンソース デスクトップ アプリケーション | アパッチ-2 |
ピクサーノ | コンピューター ビジョン アプリケーション用の Web ベースのスマート アノテーション ツール | CeCILL-C |
スカラベル | 2D と 3D データの両方のラベル付けをサポートする、Web ベースのビジュアル データ アノテーション ツール | アパッチ-2 |
ウェブクノッソス | 光学顕微鏡および電子顕微鏡ベースのコネクトミクスにおける分散大規模データ分析のための、完全にクラウドおよびブラウザベースの 3D アノテーション ツール | AGPL-3 |
Yolo_Label | ニューラル ネットワークをトレーニングするために画像内のオブジェクトの境界ボックスをマークするための GUI YOLO | マサチューセッツ工科大学 |
ビデオ
名前 | 説明 | ライセンス |
---|
ダイビング | Web およびデスクトップ用のメディア注釈および分析ツール | アパッチ-2 |
究極のラベル付け | SOTA 検出器とトラッカーが統合された Python の多目的ビデオ ラベリング GUI | マサチューセッツ工科大学 |
オーディオ
名前 | 説明 | ライセンス |
---|
アビオ | オーディオと音楽を分析するためのライブラリ | GPL-3 |
アウディノ | オープンソースの音声注釈ツール | マサチューセッツ工科大学 |
プラート | 音声分析用のアノテーション ツール | GPL-3 |
ピークス.js | オーディオ波形を操作するための JavaScript UI コンポーネント | LGPL-3 |
Wavesurfer.js | Web オーディオとキャンバス上に構築されたナビゲート可能な波形 | BSD-3 |
時系列
名前 | 説明 | ライセンス |
---|
スキタイム | 時系列を使用した機械学習のフレームワーク | BSD-3 |
他の
名前 | 説明 | ライセンス |
---|
作曲する | 自動化された予測エンジニアリング。予測問題を簡単に構造化し、教師あり学習用のラベルを生成できます。 | BSD-3 |
エンコードアクティブ | モデルをテスト、検証、評価し、ラベル付けに最も価値のあるデータを表面化し、厳選し、優先順位を付けるためのツールキット | アパッチ-2 |
ニューロトレイル | 3Dイメージングと注釈をサポートする脳マッピング用の注釈ソフトウェア | BSD-2 |
OpenCRAVAT | ゲノムバリアント用のモジュール式アノテーションツール | マサチューセッツ工科大学 |
パッチソーター | 組織学的オブジェクトのラベリングのためのオープンソースのデジタル病理学ツール | BSD-3 |
パーソナルがんゲノムレポーター (PCGR) | 精密ながん医療のために個々の腫瘍ゲノムを翻訳するためのスタンドアロン ソフトウェア パッケージ | マサチューセッツ工科大学 |
奇妙な | 検索品質のために人間の判断 (別名明示的な評価) を収集します。検索アルゴリズムを試すための安全な場所でもあります。 | アパッチ-2 |
謝辞
独自のリポジトリを作成する道を歩ませてくれた他のリポジトリ (そしてこのリポジトリも!) の作成者に感謝します。私はこれらの取り組みを利用して、上記で指定したオープンソースおよびその他の基準に従って追加、更新、削除する前に、スペースの調査を開始しました。