instruct ner Herunterladen – instruct ner Herunterladen des Quellcodes

instruct ner

AI-Quellcode

1.0.0

Herunterladen

instruct ner

Lösung komplexer Named Entity Recognition-Aufgaben (und Unteraufgabe Nested NER) auf Basis moderner Large Language Models (LLMs).

Inhaltsverzeichnis

Datensatz anweisen
- Implementierte Datensätze
- Ausbildung
Automatische Berechnung von Metriken
- Schlussfolgerung
Ergebnisse
- Metriken
- Fehleranalyse
- Einschränkungen
Modelle
- Implementierte Modelle
- Umarmendes Gesicht

Datensatz anweisen

Sie sollten Python-Wörterbücher für jeden Text und jede Beschriftung erstellen. Schauen wir uns ein vereinfachtes Beispiel aus dem Russian Drug Reaction Corpus (RuDReC) an.

Eingabetext: Это старый-добрый Римантадин, только в сиропе.
Etiketten: Римантадин - Drugname, сиропе - Drugform

1. `Instruction` erstellen – Aufgabenbeschreibung für LLM

Englisch:

Sie lösen das NER-Problem. Auszug aus den Textwörtern, die sich auf jede der folgenden Entitäten beziehen: Arzneimittelname, Arzneimittelklasse, DI, ADR, Befund.

Englisch:

Sie lösen das NER-Problem. Auszug aus den Textwörtern, die sich auf jede der folgenden Entitäten beziehen: Arzneimittelname, Arzneimittelklasse, DI, ADR, Befund.

2. Erstellen Sie `dictionary with labels` .

Sie können eine von zwei unterstützten Versionen verwenden.

Mit allen Entitätstypen (schwer zu berechnen mit großem Tagset)

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugclass' : [],
    'Drugform' : [ 'сиропе' ],
    'DI' : [],
    'ADR' : [],
    'Finding' : []
}

Nur mit den genannten Entitäten (besser für große Tag-Sets)

 short_form_output = True ( available with Nerel - BIO and MultiCoNER )

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugform' : [ 'сиропе' ]
}

3. Erstellen Sie `MODEL_INPUT_TEMPLATE` .

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Задание: {instruction} n ### Вход: {inp} n ### Ответ: " ,
'output_separator' : "Ответ: "
}

Oder englische Version

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Task: {instruction} n ### Input: {inp} n ### Answer: " ,
'output_separator' : "Answer: "
}

`Instruction` automatisch generieren

instruction_ner/utils/instruct_dataset.py

 class Instruction ( TypedDict ):
    instruction : str
    input : str
    output : str
    source : str   
    raw_entities : dict [ str , list [ str ]]
    id : str

Beispiel

{ 'instruction' : 'Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding.' ,
 'input' : 'Это старый-добрый Римантадин, только в сиропе. n ' ,
 'output' : 'Drugname: Римантадин n Drugclass: n Drugform: сиропе n DI: n ADR: n Finding: n ' ,
 'source' : '### Задание: Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding. n ### Вход: Это старый-добрый Римантадин, только в сиропе. n ### Ответ: ' ,
 'raw_entities' : { 'Drugname' : [ 'Римантадин' ],
  'Drugclass' : [],
  'Drugform' : [ 'сиропе' ],
  'DI' : [],
  'ADR' : [],
  'Finding' : []},
 'id' : '1_2555494.tsv' }

Implementierte Datensätze

instruction_ner/utils/

Russisches Drug Reaction Corpus (RuDReC)
NEREL-BIO (verschachtelte benannte Entitäten)
CoNLL-2003
MultiCoNER II (2023) (HF, feines und grobes Level-Mapping der Tags )

Trainieren Sie Ihr LLM nach `instructions`

 python medner / instruction_ner / train_instruct . py 
        - - config_file medner / instruction_ner / configs / mistral_7b . json 
        - - model_type mistral 
        - - dataset_name conll2003 
        - - max_instances - 1 
        - - push_to_hub True 
        - - hf_name_postfix _extended_instruction

Automatische Berechnung von Metriken

Leiten Sie Ihre LLM- `instructions` zum Generieren von `prediction.json` ab

 python medner / instruction_ner / inference_instruct . py 
        - - batch_size 16 
        - - dataset_name conll2003 
        - - model_type mistral 
        - - model_name poteminr / mistral - conll2003_extended_instruction 
        - - max_instances - 1

instruction_ner/metric.py

Sie können die implementierten Funktionen mit der Ausgabe von inference_instruct verwenden, um Metriken zu berechnen.

 import pandas as pd
from utils . rudrec . rudrec_utis import ENTITY_TYPES
from metric import calculate_metrics_from_dataframe

prediction = pd . read_json ( 'prediction.json' )
prediction . head ( 3 )

	Ausweis	extrahiert	Ziel
0	8_1443820.tsv	{'Drugname': [], 'Drugclass': [], 'Drugform': ['tablets'], 'DI': [], 'ADR': [], 'Finding': []}	{'Drugname': [], 'Drugclass': [], 'Drugform': ['tablets'], 'DI': [], 'ADR': [], 'Finding': []}
1	1_2555494.tsv	{'Arzneimittelname': ['Rimantadin'], 'Arzneimittelklasse': [], 'Arzneimittelform': ['Sirup'], 'DI': [], 'ADR': [], 'Befund': []}	{'Arzneimittelname': ['Rimantadin'], 'Arzneimittelklasse': [], 'Arzneimittelform': ['Sirup'], 'DI': [], 'ADR': [], 'Befund': []}
2	1_618967.tsv	{'Drugname': [], 'Drugclass': [], 'Drugform': [], 'DI': [], 'ADR': [], 'Finding': []}	{'Drugname': [], 'Drugclass': [], 'Drugform': [], 'DI': [], 'ADR': [], 'Finding': []}

 from metric import calculate_metrics_from_dataframe
metrics = calculate_metrics_from_dataframe ( prediction , ENTITY_TYPES )

{ 'Drugname' : { 'precision' : 0.9670250896057347 ,
  'recall' : 0.9195637355146558 ,
  'f1' : 0.9426974143955277 }, ...}

Ergebnisse

Tabellen mit Metriken für implementierte Datensätze (Link)

Fehleranalyse (Link)

Sie können 5 Arten von Modellfehlern untersuchen:

Falsche Erkennung – eine Art von Entität wird als eine andere erkannt
Entität wird nicht erkannt
Rechtschreibfehler : Der Ursprungstext enthält nicht die vorhergesagte Entität
Übervorhersage
Widersprüchliche Vorhersagen

Eine Verwirrungsmatrix für Fehlerkennungen ist verfügbar.

Einschränkungen

Die Anweisung LLM für NER ist bei flachen Entitäten gut, bei Datensätzen mit großen Tagsets und verschachtelten Entitäten jedoch schlecht.

Somit liefern LLM und Encoder-Modell vergleichbare Ergebnisse bei flacheren Datensätzen mit unglaublich unterschiedlichen Trainings- und Inferenzzeiten.

Modelle

Implementierte Modelle

Lama & Lama2
Mistral
T5
RWKV

Umarmendes Gesicht

Poteminr/Lama2-Rudrec-Adaptermodell (LoRA)
poteminr/llama2-rudrec-merged mit Basismodell zusammengeführt
Poteminr/Mistral-Rudrec-Adaptermodell (LoRA)

und andere Modelle auf HF wie T5, Llama, Mistral: Poteminr

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2024-12-31
Größe 50MB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

instruct ner

instruct ner

Inhaltsverzeichnis

Datensatz anweisen

1. `Instruction` erstellen – Aufgabenbeschreibung für LLM

2. Erstellen Sie `dictionary with labels` .

Mit allen Entitätstypen (schwer zu berechnen mit großem Tagset)

Nur mit den genannten Entitäten (besser für große Tag-Sets)

3. Erstellen Sie `MODEL_INPUT_TEMPLATE` .

`Instruction` automatisch generieren

Beispiel

Implementierte Datensätze

Trainieren Sie Ihr LLM nach `instructions`

Automatische Berechnung von Metriken

Leiten Sie Ihre LLM- `instructions` zum Generieren von `prediction.json` ab

Ergebnisse

Tabellen mit Metriken für implementierte Datensätze (Link)

Fehleranalyse (Link)

Einschränkungen

Modelle

Implementierte Modelle

Umarmendes Gesicht

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

node telegram bot api

typebot.io

python wechaty getting started

waymo open dataset

termwind

wp functions

instruct ner

instruct ner

Inhaltsverzeichnis

Datensatz anweisen

1. Instruction erstellen – Aufgabenbeschreibung für LLM

2. Erstellen Sie dictionary with labels .

Mit allen Entitätstypen (schwer zu berechnen mit großem Tagset)

Nur mit den genannten Entitäten (besser für große Tag-Sets)

3. Erstellen Sie MODEL_INPUT_TEMPLATE .

Instruction automatisch generieren

Beispiel

Implementierte Datensätze

Trainieren Sie Ihr LLM nach instructions

Automatische Berechnung von Metriken

Leiten Sie Ihre LLM- instructions zum Generieren von prediction.json ab

Ergebnisse

Tabellen mit Metriken für implementierte Datensätze (Link)

Fehleranalyse (Link)

Einschränkungen

Modelle

Implementierte Modelle

Umarmendes Gesicht

1. `Instruction` erstellen – Aufgabenbeschreibung für LLM

2. Erstellen Sie `dictionary with labels` .

3. Erstellen Sie `MODEL_INPUT_TEMPLATE` .

`Instruction` automatisch generieren

Trainieren Sie Ihr LLM nach `instructions`

Leiten Sie Ihre LLM- `instructions` zum Generieren von `prediction.json` ab