instruct ner下載 - instruct ner原始碼下載

instruct ner

Ai源碼

1.0.0

下載

instruct ner

基於現代大型語言模型 (LLM) 的複雜命名實體辨識任務（和子任務嵌套 NER）的解決方案。

指令資料集

你應該為每個文本和標籤建立Python字典。讓我們來看看俄羅斯藥物反應語料庫 (RuDReC) 中的一個簡化範例。

輸入文： Это старый-добрый Римантадин, только в сиропе.
標籤： Римантадин - Drugname, сиропе - Drugform

1. 建立`Instruction` -LLM的任務描述

英語：

您正在解決 NER 問題。從與以下每個實體相關的文字單字中摘錄：藥物名稱、藥物類別、DI、ADR、Finding。

英語：

您正在解決 NER 問題。從與以下每個實體相關的文字單字中摘錄：藥物名稱、藥物類別、DI、ADR、Finding。

2. 建立`dictionary with labels` 。

您可以使用兩個受支援的版本之一。

對於所有實體類型（很難使用大型標籤集進行計算）

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugclass' : [],
    'Drugform' : [ 'сиропе' ],
    'DI' : [],
    'ADR' : [],
    'Finding' : []
}

僅適用於提到的實體（對於大型標籤集更好）

 short_form_output = True ( available with Nerel - BIO and MultiCoNER )

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugform' : [ 'сиропе' ]
}

3. 建立`MODEL_INPUT_TEMPLATE` 。

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Задание: {instruction} n ### Вход: {inp} n ### Ответ: " ,
'output_separator' : "Ответ: "
}

或者英文版

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Task: {instruction} n ### Input: {inp} n ### Answer: " ,
'output_separator' : "Answer: "
}

自動產生`Instruction`

instruction_ner/utils/instruct_dataset.py

 class Instruction ( TypedDict ):
    instruction : str
    input : str
    output : str
    source : str   
    raw_entities : dict [ str , list [ str ]]
    id : str

例子

{ 'instruction' : 'Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding.' ,
 'input' : 'Это старый-добрый Римантадин, только в сиропе. n ' ,
 'output' : 'Drugname: Римантадин n Drugclass: n Drugform: сиропе n DI: n ADR: n Finding: n ' ,
 'source' : '### Задание: Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding. n ### Вход: Это старый-добрый Римантадин, только в сиропе. n ### Ответ: ' ,
 'raw_entities' : { 'Drugname' : [ 'Римантадин' ],
  'Drugclass' : [],
  'Drugform' : [ 'сиропе' ],
  'DI' : [],
  'ADR' : [],
  'Finding' : []},
 'id' : '1_2555494.tsv' }

實施的資料集

instruction_ner/utils/

俄羅斯藥物反應語料庫 (RuDReC)
NEREL-BIO（嵌套命名實體）
CoNLL-2003
MultiCoNER II (2023)（HF，標籤的精細和粗略等級映射）

按照`instructions`培訓您的法學碩士

 python medner / instruction_ner / train_instruct . py 
        - - config_file medner / instruction_ner / configs / mistral_7b . json 
        - - model_type mistral 
        - - dataset_name conll2003 
        - - max_instances - 1 
        - - push_to_hub True 
        - - hf_name_postfix _extended_instruction

自動計算指標

根據產生`prediction.json`的`instructions`推斷您的 LLM

 python medner / instruction_ner / inference_instruct . py 
        - - batch_size 16 
        - - dataset_name conll2003 
        - - model_type mistral 
        - - model_name poteminr / mistral - conll2003_extended_instruction 
        - - max_instances - 1

instruction_ner/metric.py

您可以將實作的函數與 inference_instruct 的輸出一起使用來計算指標。

 import pandas as pd
from utils . rudrec . rudrec_utis import ENTITY_TYPES
from metric import calculate_metrics_from_dataframe

prediction = pd . read_json ( 'prediction.json' )
prediction . head ( 3 )

	ID	提取的	目標
0	8_1443820.tsv	{'藥物名稱': [], '藥物類別': [], '藥物形式': ['片劑'], 'DI': [], 'ADR': [], '發現': []}	{'藥物名稱': [], '藥物類別': [], '藥物形式': ['片劑'], 'DI': [], 'ADR': [], '發現': []}
1	1_2555494.tsv	{'藥物名稱': ['金剛乙胺'], '藥物類別': [], '藥物形式': ['糖漿'], 'DI': [], 'ADR': [], '發現' : []}	{'藥物名稱': ['金剛乙胺'], '藥物類別': [], '藥物形式': ['糖漿'], 'DI': [], 'ADR': [], '發現' : []}
2	1_618967.tsv	{'藥物名稱': [], '藥物類別': [], '藥物形式': [], 'DI': [], 'ADR': [], '發現': []}	{'藥物名稱': [], '藥物類別': [], '藥物形式': [], 'DI': [], 'ADR': [], '發現': []}

 from metric import calculate_metrics_from_dataframe
metrics = calculate_metrics_from_dataframe ( prediction , ENTITY_TYPES )

{ 'Drugname' : { 'precision' : 0.9670250896057347 ,
  'recall' : 0.9195637355146558 ,
  'f1' : 0.9426974143955277 }, ...}

結果

包含已實施資料集指標的表格（連結）

錯誤分析（連結）

您可以探索 5 種類型的模型錯誤：

錯誤辨識－一種實體被辨識為另一種實體
實體未被識別
拼字錯誤- 原始文字不包含預測的實體
高估
相互矛盾的預測

錯誤辨識的混淆矩陣是可用的。

限制

NER 的指令 LLM 在平面實體上表現良好，但在具有大型標記集和嵌套實體的資料集上表現不佳。

因此，LLM 和編碼器模型在訓練和推理時間極其不同的扁平資料集上產生了可比較的結果。

型號

實施模型

駱駝和駱駝2
米斯特拉爾
T5
RWKV

抱臉

poteminr/llama2-rudrec 適配器模型 (LoRA)
poteminr/llama2-rudrec-merged 與基礎模型合併
poteminr/mistral-rudrec 適配器模型 (LoRA)

以及 HF 上的其他型號，例如 T5、Llama、Mistral：poteminr

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2024-12-31
大小 50MB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部

instruct ner

instruct ner

目錄

指令資料集

1. 建立Instruction -LLM的任務描述

2. 建立dictionary with labels 。

對於所有實體類型（很難使用大型標籤集進行計算）

僅適用於提到的實體（對於大型標籤集更好）

3. 建立MODEL_INPUT_TEMPLATE 。

自動產生Instruction

例子

實施的資料集

按照instructions培訓您的法學碩士

自動計算指標

根據產生prediction.json的instructions推斷您的 LLM

結果

包含已實施資料集指標的表格（連結）

錯誤分析（連結）

限制

型號

實施模型

抱臉

1. 建立`Instruction` -LLM的任務描述

2. 建立`dictionary with labels` 。

3. 建立`MODEL_INPUT_TEMPLATE` 。

自動產生`Instruction`

按照`instructions`培訓您的法學碩士

根據產生`prediction.json`的`instructions`推斷您的 LLM