instruct ner การดาวน์โหลด - instruct ner การดาวน์โหลดซอร์สโค้ด

instruct ner

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

instruct ner

โซลูชันของงาน Named Entity Recognition ที่ซับซ้อน (และงานย่อย Nested NER) โดยอิงตาม Large Language Models (LLM) สมัยใหม่

สารบัญ

สอนชุดข้อมูล
- ชุดข้อมูลที่นำไปใช้งาน
- การฝึกอบรม
การคำนวณเมตริกอัตโนมัติ
- การอนุมาน
ผลลัพธ์
- เมตริก
- การวิเคราะห์ข้อผิดพลาด
- ข้อจำกัด
โมเดล
- โมเดลที่นำไปใช้
- กอดใบหน้า

สอนชุดข้อมูล

คุณควรสร้างพจนานุกรมหลามสำหรับทุกข้อความและป้ายกำกับ ลองดูตัวอย่างง่ายๆ จาก Russian Drug Reaction Corpus (RuDReC)

ข้อความที่ป้อน: Это старый-добрый Римантадин, только в сиропе.
ป้ายกำกับ: Римантадин - Drugname, сиропе - Drugform

1. สร้าง `Instruction` - คำอธิบายงานสำหรับ LLM

ภาษาอังกฤษ:

คุณกำลังแก้ไขปัญหา NER แยกจากคำข้อความที่เกี่ยวข้องกับแต่ละเอนทิตีต่อไปนี้: ชื่อยา, ประเภทยา, DI, ADR, การค้นหา

ภาษาอังกฤษ:

คุณกำลังแก้ไขปัญหา NER แยกจากคำข้อความที่เกี่ยวข้องกับแต่ละเอนทิตีต่อไปนี้: ชื่อยา, ประเภทยา, DI, ADR, การค้นหา

2. สร้าง `dictionary with labels`

คุณสามารถใช้หนึ่งในสองเวอร์ชันที่รองรับ

มีทุกประเภทเอนทิตี (ยากต่อการคำนวณด้วยชุดแท็กขนาดใหญ่)

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugclass' : [],
    'Drugform' : [ 'сиропе' ],
    'DI' : [],
    'ADR' : [],
    'Finding' : []
}

เฉพาะกับเอนทิตีที่กล่าวถึงเท่านั้น (ดีกว่าสำหรับแท็กเซ็ตขนาดใหญ่)

 short_form_output = True ( available with Nerel - BIO and MultiCoNER )

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugform' : [ 'сиропе' ]
}

3. สร้าง `MODEL_INPUT_TEMPLATE`

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Задание: {instruction} n ### Вход: {inp} n ### Ответ: " ,
'output_separator' : "Ответ: "
}

หรือเวอร์ชั่นภาษาอังกฤษ

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Task: {instruction} n ### Input: {inp} n ### Answer: " ,
'output_separator' : "Answer: "
}

สร้าง `Instruction` โดยอัตโนมัติ

instruction_ner/utils/instruct_dataset.py

 class Instruction ( TypedDict ):
    instruction : str
    input : str
    output : str
    source : str   
    raw_entities : dict [ str , list [ str ]]
    id : str

ตัวอย่าง

{ 'instruction' : 'Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding.' ,
 'input' : 'Это старый-добрый Римантадин, только в сиропе. n ' ,
 'output' : 'Drugname: Римантадин n Drugclass: n Drugform: сиропе n DI: n ADR: n Finding: n ' ,
 'source' : '### Задание: Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding. n ### Вход: Это старый-добрый Римантадин, только в сиропе. n ### Ответ: ' ,
 'raw_entities' : { 'Drugname' : [ 'Римантадин' ],
  'Drugclass' : [],
  'Drugform' : [ 'сиропе' ],
  'DI' : [],
  'ADR' : [],
  'Finding' : []},
 'id' : '1_2555494.tsv' }

ชุดข้อมูลที่นำไปใช้งาน

instruction_ner/utils/

คลังข้อมูลปฏิกิริยายาของรัสเซีย (RuDReC)
NEREL-BIO (เอนทิตีที่มีชื่อซ้อนกัน)
คอนเอ็นแอล-2003
MultiCoNER II (2023) (HF, การทำแผนที่ระดับละเอียดและหยาบของแท็ก )

ฝึกอบรม LLM ของคุณตาม `instructions`

 python medner / instruction_ner / train_instruct . py 
        - - config_file medner / instruction_ner / configs / mistral_7b . json 
        - - model_type mistral 
        - - dataset_name conll2003 
        - - max_instances - 1 
        - - push_to_hub True 
        - - hf_name_postfix _extended_instruction

การคำนวณเมตริกอัตโนมัติ

อนุมาน LLM ของคุณเกี่ยวกับ `instructions` ในการสร้าง `prediction.json`

 python medner / instruction_ner / inference_instruct . py 
        - - batch_size 16 
        - - dataset_name conll2003 
        - - model_type mistral 
        - - model_name poteminr / mistral - conll2003_extended_instruction 
        - - max_instances - 1

instruction_ner/metric.py

คุณสามารถใช้ฟังก์ชันที่ปรับใช้กับเอาต์พุตของเมตริกการคำนวณ inference_instruct

 import pandas as pd
from utils . rudrec . rudrec_utis import ENTITY_TYPES
from metric import calculate_metrics_from_dataframe

prediction = pd . read_json ( 'prediction.json' )
prediction . head ( 3 )

	รหัส	สกัดแล้ว	เป้า
0	8_1443820.tsv	{'ชื่อยา': [], 'ประเภทยา': [], 'รูปแบบยา': ['แท็บเล็ต'], 'DI': [], 'ADR': [], 'การค้นหา': []}	{'ชื่อยา': [], 'ประเภทยา': [], 'รูปแบบยา': ['แท็บเล็ต'], 'DI': [], 'ADR': [], 'การค้นหา': []}
1	1_2555494.tsv	{'ชื่อยา': ['Rimantadine'], 'ประเภทยา': [], 'รูปแบบยา': ['น้ำเชื่อม'], 'DI': [], 'ADR': [], 'การค้นหา': []}	{'ชื่อยา': ['Rimantadine'], 'ประเภทยา': [], 'รูปแบบยา': ['น้ำเชื่อม'], 'DI': [], 'ADR': [], 'การค้นหา': []}
2	1_618967.tsv	{'ชื่อยา': [], 'ประเภทยา': [], 'รูปแบบยา': [], 'DI': [], 'ADR': [], 'การค้นหา': []}	{'ชื่อยา': [], 'ประเภทยา': [], 'รูปแบบยา': [], 'DI': [], 'ADR': [], 'การค้นหา': []}

 from metric import calculate_metrics_from_dataframe
metrics = calculate_metrics_from_dataframe ( prediction , ENTITY_TYPES )

{ 'Drugname' : { 'precision' : 0.9670250896057347 ,
  'recall' : 0.9195637355146558 ,
  'f1' : 0.9426974143955277 }, ...}

ผลลัพธ์

ตารางที่มีหน่วยเมตริกสำหรับชุดข้อมูลที่นำไปใช้งาน (ลิงก์)

การวิเคราะห์ข้อผิดพลาด (ลิงก์)

คุณสามารถสำรวจข้อผิดพลาดของโมเดลได้ 5 ประเภท:

การรับรู้ที่ผิดพลาด - เอนทิตีประเภทหนึ่งได้รับการยอมรับว่าเป็นอีกประเภทหนึ่ง
ไม่รู้จักเอนทิตี
การสะกดผิด - ข้อความต้นฉบับไม่มีเอนทิตีที่คาดคะเน
เกินคาด
การคาดการณ์ที่ขัดแย้งกัน

มีเมทริกซ์ความสับสนสำหรับการรับรู้ที่ผิดพลาด