instruct nerダウンロード - instruct nerソースコードのダウンロード

instruct ner

AI ソースコード

1.0.0

ダウンロード

instruct ner

最新の大規模言語モデル (LLM) に基づく、複雑な固有表現認識タスク (およびサブタスクのネストされた NER) のソリューション。

データセットの説明

すべてのテキストとラベルに対して Python 辞書を作成する必要があります。 Russian Drug Reaction Corpus (RuDReC) の簡略化された例を見てみましょう。

入力テキスト: Это старый-добрый Римантадин, только в сиропе.
ラベル: Римантадин - Drugname, сиропе - Drugform

1. `Instruction`の作成 - LLM のタスクの説明

英語：

あなたは NER 問題を解決しています。次の各エンティティに関連する単語をテキストから抽出します: 薬剤名、薬剤クラス、DI、ADR、所見。

英語：

あなたは NER 問題を解決しています。次の各エンティティに関連する単語をテキストから抽出します: 薬剤名、薬剤クラス、DI、ADR、所見。

2. `dictionary with labels`作成します。

サポートされている 2 つのバージョンのいずれかを使用できます。

すべてのエンティティタイプ (大きなタグセットで計算するのは困難)

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugclass' : [],
    'Drugform' : [ 'сиропе' ],
    'DI' : [],
    'ADR' : [],
    'Finding' : []
}

言及されたエンティティのみ (大規模なタグセットに適しています)

 short_form_output = True ( available with Nerel - BIO and MultiCoNER )

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugform' : [ 'сиропе' ]
}

3. `MODEL_INPUT_TEMPLATE`を作成します。

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Задание: {instruction} n ### Вход: {inp} n ### Ответ: " ,
'output_separator' : "Ответ: "
}

もしくは英語版

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Task: {instruction} n ### Input: {inp} n ### Answer: " ,
'output_separator' : "Answer: "
}

`Instruction`自動生成

instruction_ner/utils/instruct_dataset.py

 class Instruction ( TypedDict ):
    instruction : str
    input : str
    output : str
    source : str   
    raw_entities : dict [ str , list [ str ]]
    id : str

例

{ 'instruction' : 'Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding.' ,
 'input' : 'Это старый-добрый Римантадин, только в сиропе. n ' ,
 'output' : 'Drugname: Римантадин n Drugclass: n Drugform: сиропе n DI: n ADR: n Finding: n ' ,
 'source' : '### Задание: Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding. n ### Вход: Это старый-добрый Римантадин, только в сиропе. n ### Ответ: ' ,
 'raw_entities' : { 'Drugname' : [ 'Римантадин' ],
  'Drugclass' : [],
  'Drugform' : [ 'сиропе' ],
  'DI' : [],
  'ADR' : [],
  'Finding' : []},
 'id' : '1_2555494.tsv' }

実装されたデータセット

instruction_ner/utils/

ロシアの薬物反応コーパス (RuDReC)
NEREL-BIO (ネストされた名前付きエンティティ)
CoNLL-2003
MultiCoNER II (2023) (HF、タグの細かいおよび粗いレベルのマッピング)

`instructions`に従って LLM をトレーニングする

 python medner / instruction_ner / train_instruct . py 
        - - config_file medner / instruction_ner / configs / mistral_7b . json 
        - - model_type mistral 
        - - dataset_name conll2003 
        - - max_instances - 1 
        - - push_to_hub True 
        - - hf_name_postfix _extended_instruction

メトリクスの自動計算

`instructions`に基づいて LLM を推論し、 `prediction.json`を生成します。

 python medner / instruction_ner / inference_instruct . py 
        - - batch_size 16 
        - - dataset_name conll2003 
        - - model_type mistral 
        - - model_name poteminr / mistral - conll2003_extended_instruction 
        - - max_instances - 1

instruction_ner/metric.py

実装された関数は、inference_instruct の出力でメトリクスを計算できます。

 import pandas as pd
from utils . rudrec . rudrec_utis import ENTITY_TYPES
from metric import calculate_metrics_from_dataframe

prediction = pd . read_json ( 'prediction.json' )
prediction . head ( 3 )

	ID	抽出された	ターゲット
0	8_1443820.tsv	{'薬剤名': []、'薬剤クラス': []、'薬剤形式': ['錠剤']、'DI': []、'ADR': []、'所見': []}	{'薬剤名': []、'薬剤クラス': []、'薬剤形式': ['錠剤']、'DI': []、'ADR': []、'所見': []}
1	1_2555494.tsv	{'薬剤名': ['リマンタジン']、'薬剤分類': []、'薬剤形式': ['シロップ']、'DI': []、'ADR': []、'所見': []}	{'薬剤名': ['リマンタジン']、'薬剤分類': []、'薬剤形式': ['シロップ']、'DI': []、'ADR': []、'所見': []}
2	1_618967.tsv	{'薬剤名': []、'薬剤クラス': []、'薬剤形式': []、'DI': []、'ADR': []、'所見': []}	{'薬剤名': []、'薬剤クラス': []、'薬剤形式': []、'DI': []、'ADR': []、'所見': []}

 from metric import calculate_metrics_from_dataframe
metrics = calculate_metrics_from_dataframe ( prediction , ENTITY_TYPES )

{ 'Drugname' : { 'precision' : 0.9670250896057347 ,
  'recall' : 0.9195637355146558 ,
  'f1' : 0.9426974143955277 }, ...}

結果

実装されたデータセットのメトリクスを含む表 (リンク)

エラー分析 (リンク)

5 種類のモデルエラーを調査できます。

誤った認識– あるタイプのエンティティが別のタイプのエンティティとして認識される
エンティティが認識されません
スペルミス- 元のテキストに予測されたエンティティが含まれていません
過剰予測
相反する予測

誤った認識のための混同マトリックスが利用可能です。

制限

NER の命令 LLM は、フラットなエンティティでは良好に実行されますが、大きなタグセットとネストされたエンティティを含むデータセットではパフォーマンスが低下します。

したがって、LLM とエンコーダーモデルは、信じられないほど異なるトレーニング時間と推論時間を使用して、よりフラットなデータセットで同等の結果を生成します。

モデル

実装モデル

ラマ＆ラマ2
ミストラル
T5
RWKV

ハグ顔

Poteminr/llama2-rudrec アダプターモデル (LoRA)
poteminr/llama2-rudrec-merged ベースモデルとマージされました
ポテミンル/ミストラル-ルドレックアダプターモデル (LoRA)

T5、Llama、Mistral などの HF の他のモデル:poteminr

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2024-12-31
サイズ 50MB
から Github

instruct ner

instruct ner

目次

データセットの説明

1. `Instruction`の作成 - LLM のタスクの説明

2. `dictionary with labels`作成します。

すべてのエンティティタイプ (大きなタグセットで計算するのは困難)

言及されたエンティティのみ (大規模なタグセットに適しています)

3. `MODEL_INPUT_TEMPLATE`を作成します。

`Instruction`自動生成

例

実装されたデータセット

`instructions`に従って LLM をトレーニングする

メトリクスの自動計算

`instructions`に基づいて LLM を推論し、 `prediction.json`を生成します。

結果

実装されたデータセットのメトリクスを含む表 (リンク)

エラー分析 (リンク)

制限

モデル

実装モデル

ハグ顔

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

instruct ner

instruct ner

目次

データセットの説明

1. Instructionの作成 - LLM のタスクの説明

2. dictionary with labels作成します。

すべてのエンティティ タイプ (大きなタグセットで計算するのは困難)

言及されたエンティティのみ (大規模なタグセットに適しています)

3. MODEL_INPUT_TEMPLATEを作成します。

Instruction自動生成

例

実装されたデータセット

instructionsに従って LLM をトレーニングする

メトリクスの自動計算

instructionsに基づいて LLM を推論し、 prediction.jsonを生成します。

結果

実装されたデータセットのメトリクスを含む表 (リンク)

エラー分析 (リンク)

制限

モデル

実装モデル

ハグ顔

1. `Instruction`の作成 - LLM のタスクの説明

2. `dictionary with labels`作成します。

すべてのエンティティタイプ (大きなタグセットで計算するのは困難)

3. `MODEL_INPUT_TEMPLATE`を作成します。

`Instruction`自動生成

`instructions`に従って LLM をトレーニングする

`instructions`に基づいて LLM を推論し、 `prediction.json`を生成します。