instruct ner下载 - instruct ner源代码下载

instruct ner

Ai源码

1.0.0

下载

instruct ner

基于现代大型语言模型 (LLM) 的复杂命名实体识别任务（和子任务嵌套 NER）的解决方案。

指令数据集

你应该为每个文本和标签构建Python字典。让我们看一下俄罗斯药物反应语料库 (RuDReC) 中的一个简化示例。

输入文本： Это старый-добрый Римантадин, только в сиропе.
标签： Римантадин - Drugname, сиропе - Drugform

1. 创建`Instruction` -LLM的任务描述

英语：

您正在解决 NER 问题。从与以下每个实体相关的文本单词中摘录：药物名称、药物类别、DI、ADR、Finding。

英语：

您正在解决 NER 问题。从与以下每个实体相关的文本单词中摘录：药物名称、药物类别、DI、ADR、Finding。

2. 建立`dictionary with labels` 。

您可以使用两个受支持的版本之一。

对于所有实体类型（很难使用大型标签集进行计算）

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugclass' : [],
    'Drugform' : [ 'сиропе' ],
    'DI' : [],
    'ADR' : [],
    'Finding' : []
}

仅适用于提到的实体（对于大型标签集更好）

 short_form_output = True ( available with Nerel - BIO and MultiCoNER )

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugform' : [ 'сиропе' ]
}

3. 创建`MODEL_INPUT_TEMPLATE` 。

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Задание: {instruction} n ### Вход: {inp} n ### Ответ: " ,
'output_separator' : "Ответ: "
}

或者英文版

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Task: {instruction} n ### Input: {inp} n ### Answer: " ,
'output_separator' : "Answer: "
}

自动生成`Instruction`

instruction_ner/utils/instruct_dataset.py

 class Instruction ( TypedDict ):
    instruction : str
    input : str
    output : str
    source : str   
    raw_entities : dict [ str , list [ str ]]
    id : str

例子

{ 'instruction' : 'Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding.' ,
 'input' : 'Это старый-добрый Римантадин, только в сиропе. n ' ,
 'output' : 'Drugname: Римантадин n Drugclass: n Drugform: сиропе n DI: n ADR: n Finding: n ' ,
 'source' : '### Задание: Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding. n ### Вход: Это старый-добрый Римантадин, только в сиропе. n ### Ответ: ' ,
 'raw_entities' : { 'Drugname' : [ 'Римантадин' ],
  'Drugclass' : [],
  'Drugform' : [ 'сиропе' ],
  'DI' : [],
  'ADR' : [],
  'Finding' : []},
 'id' : '1_2555494.tsv' }

实施的数据集

instruction_ner/utils/

俄罗斯药物反应语料库 (RuDReC)
NEREL-BIO（嵌套命名实体）
CoNLL-2003
MultiCoNER II (2023)（HF，标签的精细和粗略级别映射）

按照`instructions`培训您的法学硕士

 python medner / instruction_ner / train_instruct . py 
        - - config_file medner / instruction_ner / configs / mistral_7b . json 
        - - model_type mistral 
        - - dataset_name conll2003 
        - - max_instances - 1 
        - - push_to_hub True 
        - - hf_name_postfix _extended_instruction

自动计算指标

根据生成`prediction.json`的`instructions`推断您的 LLM

 python medner / instruction_ner / inference_instruct . py 
        - - batch_size 16 
        - - dataset_name conll2003 
        - - model_type mistral 
        - - model_name poteminr / mistral - conll2003_extended_instruction 
        - - max_instances - 1

instruction_ner/metric.py

您可以将实现的函数与 inference_instruct 的输出一起使用来计算指标。

 import pandas as pd
from utils . rudrec . rudrec_utis import ENTITY_TYPES
from metric import calculate_metrics_from_dataframe

prediction = pd . read_json ( 'prediction.json' )
prediction . head ( 3 )

	ID	提取的	目标
0	8_1443820.tsv	{'药物名称': [], '药物类别': [], '药物形式': ['片剂'], 'DI': [], 'ADR': [], '发现': []}	{'药物名称': [], '药物类别': [], '药物形式': ['片剂'], 'DI': [], 'ADR': [], '发现': []}
1	1_2555494.tsv	{'药物名称': ['金刚乙胺'], '药物类别': [], '药物形式': ['糖浆'], 'DI': [], 'ADR': [], '发现': []}	{'药物名称': ['金刚乙胺'], '药物类别': [], '药物形式': ['糖浆'], 'DI': [], 'ADR': [], '发现': []}
2	1_618967.tsv	{'药物名称': [], '药物类别': [], '药物形式': [], 'DI': [], 'ADR': [], '发现': []}	{'药物名称': [], '药物类别': [], '药物形式': [], 'DI': [], 'ADR': [], '发现': []}

 from metric import calculate_metrics_from_dataframe
metrics = calculate_metrics_from_dataframe ( prediction , ENTITY_TYPES )

{ 'Drugname' : { 'precision' : 0.9670250896057347 ,
  'recall' : 0.9195637355146558 ,
  'f1' : 0.9426974143955277 }, ...}

结果

包含已实施数据集指标的表格（链接）

错误分析（链接）

您可以探索 5 种类型的模型错误：

错误识别——一种实体被识别为另一种实体
实体未被识别
拼写错误- 原始文本不包含预测的实体
高估
相互矛盾的预测

错误识别的混淆矩阵是可用的。

限制

NER 的指令 LLM 在平面实体上表现良好，但在具有大型标记集和嵌套实体的数据集上表现不佳。

因此，LLM 和编码器模型在训练和推理时间极其不同的扁平数据集上产生了可比较的结果。

型号

实施模型

骆驼和骆驼2
米斯特拉尔
T5
RWKV

抱脸

poteminr/llama2-rudrec 适配器模型 (LoRA)
poteminr/llama2-rudrec-merged 与基础模型合并
poteminr/mistral-rudrec 适配器模型 (LoRA)

以及 HF 上的其他型号，例如 T5、Llama、Mistral：poteminr

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2024-12-31
大小 50MB
来自于 Github

instruct ner

instruct ner

目录

指令数据集

1. 创建`Instruction` -LLM的任务描述

2. 建立`dictionary with labels` 。

对于所有实体类型（很难使用大型标签集进行计算）

仅适用于提到的实体（对于大型标签集更好）

3. 创建`MODEL_INPUT_TEMPLATE` 。

自动生成`Instruction`

例子

实施的数据集

按照`instructions`培训您的法学硕士

自动计算指标

根据生成`prediction.json`的`instructions`推断您的 LLM

结果

包含已实施数据集指标的表格（链接）

错误分析（链接）

限制

型号

实施模型

抱脸

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

instruct ner

instruct ner

目录

指令数据集

1. 创建Instruction -LLM的任务描述

2. 建立dictionary with labels 。

对于所有实体类型（很难使用大型标签集进行计算）

仅适用于提到的实体（对于大型标签集更好）

3. 创建MODEL_INPUT_TEMPLATE 。

自动生成Instruction

例子

实施的数据集

按照instructions培训您的法学硕士

自动计算指标

根据生成prediction.json的instructions推断您的 LLM

结果

包含已实施数据集指标的表格（链接）

错误分析（链接）

限制

型号

实施模型

抱脸

1. 创建`Instruction` -LLM的任务描述

2. 建立`dictionary with labels` 。

3. 创建`MODEL_INPUT_TEMPLATE` 。

自动生成`Instruction`

按照`instructions`培训您的法学硕士

根据生成`prediction.json`的`instructions`推断您的 LLM