instruct ner Télécharger - instruct ner Téléchargement du code source

instruct ner

Code Source AI

1.0.0

Télécharger

instruct ner

Solution de tâches complexes de reconnaissance d'entités nommées (et de sous-tâches Nested NER) basées sur des modèles de langage étendus (LLM) modernes.

Table des matières

Ensemble de données Insturct
- Ensembles de données implémentés
- Entraînement
Calcul automatique des métriques
- Inférence
Résultats
- Métrique
- Analyse des erreurs
- Restrictions
Modèles
- Modèles implémentés
- ÉtreindreVisage

Ensemble de données Insturct

Vous devez créer des dictionnaires Python pour chaque texte et étiquette. Regardons un exemple simplifié du Russian Drug Reaction Corpus (RuDReC).

Texte de saisie : Это старый-добрый Римантадин, только в сиропе.
Étiquettes : Римантадин - Drugname, сиропе - Drugform

1. Créer `Instruction` - description de la tâche pour LLM

Anglais:

Vous résolvez le problème NER. Extrayez du texte les mots liés à chacune des entités suivantes : Nom du médicament, Classe du médicament, DI, ADR, Finding.

Anglais:

Vous résolvez le problème NER. Extrayez du texte les mots liés à chacune des entités suivantes : Nom du médicament, Classe du médicament, DI, ADR, Finding.

2. Créez `dictionary with labels` .

Vous pouvez utiliser l'une des deux versions prises en charge.

Avec tous les types d'entités (difficile à calculer avec un grand jeu de balises)

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugclass' : [],
    'Drugform' : [ 'сиропе' ],
    'DI' : [],
    'ADR' : [],
    'Finding' : []
}

Uniquement avec les entités mentionnées (mieux pour les grands jeux de balises)

 short_form_output = True ( available with Nerel - BIO and MultiCoNER )

 raw_entities = {
    'Drugname' : [ 'Римантадин' ],
    'Drugform' : [ 'сиропе' ]
}

3. Créez `MODEL_INPUT_TEMPLATE` .

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Задание: {instruction} n ### Вход: {inp} n ### Ответ: " ,
'output_separator' : "Ответ: "
}

Ou version anglaise

 MODEL_INPUT_TEMPLATE = {
'prompts_input' : "### Task: {instruction} n ### Input: {inp} n ### Answer: " ,
'output_separator' : "Answer: "
}

Générer automatiquement `Instruction`

instruction_ner/utils/instruct_dataset.py

 class Instruction ( TypedDict ):
    instruction : str
    input : str
    output : str
    source : str   
    raw_entities : dict [ str , list [ str ]]
    id : str

Exemple

{ 'instruction' : 'Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding.' ,
 'input' : 'Это старый-добрый Римантадин, только в сиропе. n ' ,
 'output' : 'Drugname: Римантадин n Drugclass: n Drugform: сиропе n DI: n ADR: n Finding: n ' ,
 'source' : '### Задание: Ты решаешь задачу NER. Извлеки из текста слова, относящиеся к каждой из следующих сущностей: Drugname, Drugclass, DI, ADR, Finding. n ### Вход: Это старый-добрый Римантадин, только в сиропе. n ### Ответ: ' ,
 'raw_entities' : { 'Drugname' : [ 'Римантадин' ],
  'Drugclass' : [],
  'Drugform' : [ 'сиропе' ],
  'DI' : [],
  'ADR' : [],
  'Finding' : []},
 'id' : '1_2555494.tsv' }

Ensembles de données implémentés

instruction_ner/utils/

Corpus russe des réactions aux médicaments (RuDReC)
NEREL-BIO (entités nommées imbriquées)
CoNLL-2003
MultiCoNER II (2023) ( Cartographie de niveau HF, fine et grossière des tags )

Formez votre LLM sur `instructions`

 python medner / instruction_ner / train_instruct . py 
        - - config_file medner / instruction_ner / configs / mistral_7b . json 
        - - model_type mistral 
        - - dataset_name conll2003 
        - - max_instances - 1 
        - - push_to_hub True 
        - - hf_name_postfix _extended_instruction

Calcul automatique des métriques

Déduisez votre LLM sur `instructions` pour générer `prediction.json`

 python medner / instruction_ner / inference_instruct . py 
        - - batch_size 16 
        - - dataset_name conll2003 
        - - model_type mistral 
        - - model_name poteminr / mistral - conll2003_extended_instruction 
        - - max_instances - 1

instruction_ner/metric.py

Vous pouvez utiliser les fonctions implémentées avec la sortie de inference_instruct calculate metrics.

 import pandas as pd
from utils . rudrec . rudrec_utis import ENTITY_TYPES
from metric import calculate_metrics_from_dataframe

prediction = pd . read_json ( 'prediction.json' )
prediction . head ( 3 )

	identifiant	extrait	cible
0	8_1443820.tsv	{'Nom du médicament' : [], 'Classe de médicament' : [], 'Forme de médicament' : ['comprimés'], 'DI' : [], 'ADR' : [], 'Résultat' : []}	{'Nom du médicament' : [], 'Classe de médicament' : [], 'Forme de médicament' : ['comprimés'], 'DI' : [], 'ADR' : [], 'Résultat' : []}
1	1_2555494.tsv	{'Nom du médicament' : ['Rimantadine'], 'Classe de médicament' : [], 'Forme du médicament' : ['sirop'], 'DI' : [], 'ADR' : [], 'Recherche' : []}	{'Nom du médicament' : ['Rimantadine'], 'Classe de médicament' : [], 'Forme du médicament' : ['sirop'], 'DI' : [], 'ADR' : [], 'Résultat' : []}
2	1_618967.tsv	{'Nom du médicament' : [], 'Classe de médicament' : [], 'Forme de médicament' : [], 'DI' : [], 'ADR' : [], 'Résultat' : []}	{'Nom du médicament' : [], 'Classe de médicament' : [], 'Forme de médicament' : [], 'DI' : [], 'ADR' : [], 'Résultat' : []}

 from metric import calculate_metrics_from_dataframe
metrics = calculate_metrics_from_dataframe ( prediction , ENTITY_TYPES )

{ 'Drugname' : { 'precision' : 0.9670250896057347 ,
  'recall' : 0.9195637355146558 ,
  'f1' : 0.9426974143955277 }, ...}

Résultats

Tableaux avec métriques pour les ensembles de données implémentés (lien)

Analyse des erreurs (lien)

Vous pouvez explorer 5 types d’erreurs de modèle :

Reconnaissance erronée - un type d'entité est reconnu comme un autre
L'entité n'est pas reconnue
Faute d'orthographe : le texte d'origine ne contient pas l'entité prédite
Surprédiction
Des prédictions contradictoires

Une matrice de confusion pour les reconnaissances erronées est disponible.

Restrictions

L'instruction LLM pour NER fonctionne bien sur les entités plates, mais fonctionne mal sur les ensembles de données avec de grands jeux de balises et des entités imbriquées.

Ainsi, le LLM et le modèle d'encodeur produisent des résultats comparables sur des ensembles de données plus plats avec des temps de formation et d'inférence incroyablement différents.