prodigy recipesダウンロード - prodigy recipesソースコードダウンロード

prodigy recipes

AI ソースコード

1.0.0

ダウンロード

天才レシピ

このリポジトリには、テキスト、画像、その他のデータ用のスクリプト可能な注釈ツールである Prodigy のレシピのコレクションが含まれています。このリポジトリを使用するには、Prodigy のライセンスが必要です。詳細については、このページを参照してください。質問やバグ報告については、Prodigy サポートフォーラムをご利用ください。間違いやバグを見つけた場合は、お気軽にプルリクエストを送信してください。

重要な注意:このリポジトリ内のレシピは、Prodigy に同梱されている組み込みレシピと 100% 同一ではありません。これらは、コメントや詳細情報を含めるように編集されており、何が起こっているかを理解しやすく、カスタムレシピのベースとして使用できるように、一部は簡略化されています。

?使用法

Prodigy がインストールされると、ターミナルから直接またはpython -m経由でprodigyコマンドを実行できるようになります。

python -m prodigy

prodigyコマンドは、組み込みレシピをリストします。カスタムレシピスクリプトを使用するには、 -F引数を使用してファイルへのパスを渡すだけです。

python -m prodigy ner.teach your_dataset en_core_web_sm ./data.jsonl --label PERSON -F prodigy-recipes/ner/ner_teach.py

--helpフラグを使用して、レシピで使用可能な引数の概要を確認することもできます (例: prodigy ner.teach -F ner_teach_.py --help 。

試してみるいくつかのこと

レシピスクリプトのコードを編集して、Prodigy の動作をカスタマイズできます。

prefer_uncertain() prefer_high_scores()に置き換えてみてください。
カスタムの並べ替え関数を作成してみてください。必要なのは、一連の(score, example)タプルを指定して、一連のexampleの辞書を生成するジェネレーターであることだけです。
ストリームからいくつかの質問を削除するフィルターを追加してみてください。たとえば、エンティティの長さが 2 単語である場合にのみ質問するフィルターを作成してみてください。
update()コールバックをカスタマイズして、追加のログ記録や追加機能を含めてみてください。

?レシピ

固有表現の認識

レシピ	説明
`ner.teach`	ループ内のモデルを使用して、名前付きエンティティ認識モデルの可能な限り最良のトレーニングデータを収集します。注釈に基づいて、Prodigy は次にどの質問をするかを決定します。
`ner.match`	指定されたパターンファイルに一致するフレーズを提案し、それらが興味のあるエンティティの例であるかどうかをマークします。パターンファイルには、 spaCy の`Matcher`で使用するための正確な文字列またはトークンパターンを含めることができます。
`ner.manual`	トークンによってスパンを手動でマークします。必要なのはトークナイザーのみでエンティティ認識機能は必要なく、アクティブラーニングは行いません。オプションで、パターンに基づいてスパンを事前にハイライト表示します。
`ner.fuzzy_manual`	`ner.manual`と似ていますが、 `spaczz`ライブラリの`FuzzyMatcher`使用して候補を事前に強調表示します。
`ner.manual.bert`	BERT ワードピーストークナイザーを使用して、トランスモデルに対する効率的な手動 NER アノテーションを実行します。
`ner.correct`	モデルの予測を手動で修正して、ゴールドスタンダードデータを作成します。このレシピは以前は`ner.make_gold`と呼ばれていました。
`ner.silver-to-gold`	バイナリの受け入れ/拒否アノテーションを持つ既存の「シルバー」データセットを取得し、アノテーションをマージして、アノテーションで定義された制約を考慮して可能な限り最適な分析を見つけ、それを手動で編集して完全で完全な「ゴールド」データセットを作成します。
`ner.eval_ab`	2 つの NER モデルの予測を比較し、ストリームから評価セットを構築することで、2 つの NER モデルを評価します。
`ner_fuzzy_manual`	`spaczz fuzzy`マッチャーからの提案が事前に強調表示され、トークンによってスパンを手動でマークします。

テキストの分類

レシピ	説明
`textcat.manual`	テキストに適用されるカテゴリに手動で注釈を付けます。単一および複数のラベルを使用した注釈タスクをサポートします。オプションで、複数のラベルに排他的としてフラグを付けることができます。
`textcat.correct`	textcat モデルの予測を手動で修正します。許容しきい値を超える予測は自動的に事前選択されます (デフォルトでは 0.5)。 Prodigy は、コンポーネント構成に基づいて、カテゴリが相互に排他的であるべきかどうかを推測します。
`textcat.teach`	ループ内のモデルを使用して、テキスト分類モデルの可能な限り最良のトレーニングデータを収集します。注釈に基づいて、Prodigy は次にどの質問をするかを決定します。
`textcat.custom-model`	アクティブラーニングを活用したテキスト分類をカスタムモデルで使用します。どのように機能するかを示すために、このデモレシピでは、ランダムなスコアを「予測」する単純なダミーモデルを使用します。ただし、PyTorch、TensorFlow、scikit-learn を使用したテキスト分類モデルの実装など、任意のモデルに置き換えることができます。

用語

レシピ	説明
`terms.teach`	単語ベクトルとシード用語を使用して用語リストをブートストラップします。 Prodigy は単語ベクトルに基づいて類似の用語を提案し、それに応じてターゲットベクトルを更新します。

画像

レシピ	説明
`image.manual`	画像上に長方形の境界ボックスまたは多角形を描画して、画像に手動で注釈を付けます。
`image-caption`	画像にキャプションの注釈を付け、PyTorch に実装された画像キャプションモデルを使用してキャプションを事前に入力し、エラー分析を実行します。
`image.frozenmodel`	Tensorflow のオブジェクト検出 API を使用したループ手動アノテーションのモデル化。
`image.servingmodel`	Tensorflow のオブジェクト検出 API を使用したループ手動アノテーションのモデル化。これは Tensorflow Serving を使用します
`image.trainmodel`	Tensorflow のオブジェクト検出 API を使用したループ手動アノテーションとトレーニングのモデル化。

他の

レシピ	説明
`mark`	ループ内のモデルを使用せずに、事前に準備された例をクリックして実行します。
`choice`	複数の選択肢を使用してデータに注釈を付けます。注釈付きの例には、選択したオプションの ID にマッピングする追加のプロパティ`"accept": []`が含まれます。
`question_answering`	カスタム HTML インターフェイスを使用して、質問と回答のペアに注釈を付けます。

コミュニティレシピ

レシピ	著者	説明
`phrases.teach`	@カビルカン	現在は`sense2vec`の一部です。
`phrases.to-patterns`	@カビルカン	現在は`sense2vec`の一部です。
`records.link`	@カビルカン	`dedupe`ライブラリを使用して、複数のデータセット間でレコードをリンクします。

チュートリアルのレシピ

これらのレシピはチュートリアルの 1 つに登場しました。

レシピ	説明
`span-and-textcat`	Spankat と Textcat の両方のアノテーションを同時に実行します。チャットボットに最適!
`terms.from-ner`	以前の NER アノテーションから用語を生成します。
`audio-with-transcript`	手動の音声注釈と文字起こしの両方を処理します。
`progress`	注釈の速度を追跡する`update`コールバックのデモ。

データセットとパターンの例

より簡単に開始できるように、生データと Prodigy で作成されたアノテーションを含むデータの両方のexample-datasetsもいくつか含まれています。 ner.teachやner.matchなどのレシピで使用するトークンベースの一致パターンの例については、 example-patternsディレクトリを参照してください。

拡大する

追加情報