Téléchargement EasyInstruct - Téléchargement du code source EasyInstruct

EasyInstruct

Code Source AI

1.0.0

Télécharger

Un cadre de traitement d'instructions facile à utiliser pour les grands modèles de langage.

Projet • Document • Démo • Présentation • Installation • Démarrage rapide • Comment utiliser • Documents • Vidéo • Citation • Contributeurs

Table des matières

Quoi de neuf
Aperçu
Installation
Démarrage rapide
- Script Shell
- Application Gradio
Utiliser EasyInstruct
- Générateurs
- Sélecteurs
- Invites
- Moteurs
Citation
Contributeurs

?Nouvelles

04/06/2024, EasyInstruct est accepté par ACL 2024 System Demonstration Track. ??
06/02/2024 Nous publions un nouvel article : « EasyInstruct : An Easy-to-use Instruction Processing Framework for Large Language Models » avec une démo HF EasyInstruct.
2024-02-06 Nous publions un outil préliminaire EasyDetect pour la détection des hallucinations, avec une démo .
05/02/2024 Nous publions la version 0.1.2, prenant en charge de nouvelles fonctionnalités et optimisant l'interface des fonctions.
2023-12-09 L'article « Quand le programme de pensée fonctionne-t-il pour le raisonnement ? (supporté par EasyInstruct), est accepté par AAAI 2024 !
2023-10-28 Nous publions la version 0.1.1, prenant en charge de nouvelles fonctionnalités de génération et de sélection d'instructions.
09/08/2023 Nous publions la version 0.0.6, prenant en charge les appels de l'API Cohere.
2023-07-12 Nous publions EasyEdit, un framework facile à utiliser pour éditer des grands modèles linguistiques.

Actualités précédentes

2023-5-23 Nous publions la version 0.0.5, supprimant l'exigence de lama-cpp-python.
2023-5-16 Nous publions la version 0.0.4, corrigeant certains problèmes.
2023-4-21 Nous publions la version 0.0.3, consultez nos documentations pour plus de détails.
2023-3-25 Nous publions la version 0.0.2, prenant en charge IndexPrompt, MMPrompt, IEPrompt et d'autres LLM.
13/03/2023 Nous publions la version 0.0.1, prenant en charge l'apprentissage en contexte et la chaîne de pensée avec ChatGPT.

Ce référentiel est un sous-projet de KnowLM.

?Aperçu

EasyInstruct est un package Python proposé comme cadre de traitement d'instructions facile à utiliser pour les grands modèles linguistiques (LLM) comme GPT-4, LLaMA, ChatGLM dans vos expériences de recherche. EasyInstruct modularise la génération, la sélection et les invites d'instructions, tout en prenant également en compte leur combinaison et leur interaction.

Les techniques de génération d'instructions actuellement prises en charge sont les suivantes :

Méthodes	Description
Auto-instruction	La méthode qui échantillonne de manière aléatoire quelques instructions d'un pool de tâches de départ annotées par l'homme à titre de démonstration et invite un LLM à générer plus d'instructions et les paires entrée-sortie correspondantes.
Evol-Instruire	Méthode qui met progressivement à niveau un ensemble initial d'instructions en instructions plus complexes en invitant un LLM avec des invites spécifiques.
Rétrotraduction	Méthode qui crée une instruction suite à une instance de formation en prédisant une instruction à laquelle une partie d'un document du corpus répondrait correctement.
KG2Instruire	Méthode qui crée une instruction suite à une instance de formation en prédisant une instruction à laquelle une partie d'un document du corpus répondrait correctement.

Les métriques de sélection d'instructions actuellement prises en charge sont les suivantes :

Métrique	Notation	Description
Longueur	$Len$	La longueur limitée de chaque paire d’instructions et de réponses.
Perplexité	$PPL$	Log-vraisemblance négative moyenne exponentiée de réponse.
MTLD	$MTLD$	Mesure de la diversité lexicale textuelle, la longueur moyenne des mots séquentiels dans un texte qui maintient un seuil minimum de score TTR.
ROUGE	$ROUGE$	Étude orientée rappel pour l'évaluation Gisting, un ensemble de mesures utilisées pour évaluer les similitudes entre les phrases.
Score GPT	$GPT$	Le score indiquant si le résultat est un bon exemple de la façon dont AI Assistant doit répondre aux instructions de l'utilisateur, fournies par ChatGPT.
CIRS	$CIRS$	Le score utilise l'arbre de syntaxe abstraite pour coder les attributs structurels et logiques, afin de mesurer la corrélation entre le code et les capacités de raisonnement.

Fournisseurs de services API et leurs produits LLM correspondants actuellement disponibles :

Modèle	Description	Version par défaut
OpenAI
GPT-3.5	Un ensemble de modèles qui améliorent GPT-3 et peuvent comprendre et générer du langage naturel ou du code.	`gpt-3.5-turbo`
GPT-4	Un ensemble de modèles qui améliorent GPT-3.5 et peuvent comprendre et générer du langage naturel ou du code.	`gpt-4`
Anthropique
Claude	Un assistant IA de nouvelle génération basé sur les recherches d'Anthropic sur la formation de systèmes d'IA utiles, honnêtes et inoffensifs.	`claude-2.0`
Claude-Instant	Une option plus légère, moins chère et beaucoup plus rapide que Claude.	`claude-instant-1.2`
Adhérer
Commande	Un modèle phare de génération de texte de Cohere, formé pour suivre les commandes de l'utilisateur et pour être instantanément utile dans des applications métiers pratiques.	`command`
Lumière de commande	Une version allégée des modèles Command qui sont plus rapides mais peuvent produire du texte généré de moindre qualité.	`command-light`

?Installation

Installation à partir de la branche du dépôt git :

 pip install git+https://github.com/zjunlp/EasyInstruct@main

Installation pour le développement local :

 git clone https://github.com/zjunlp/EasyInstruct
cd EasyInstruct
pip install -e .

Installation à l'aide de PyPI (pas la dernière version) :

 pip install easyinstruct -i https://pypi.org/simple

⏩Démarrage rapide

Nous proposons aux utilisateurs deux façons de démarrer rapidement avec EasyInstruct. Vous pouvez utiliser le script shell ou l'application Gradio en fonction de vos besoins spécifiques.

Script Shell

Étape 1 : Préparez un fichier de configuration

Les utilisateurs peuvent facilement configurer les paramètres d'EasyInstruct dans un fichier de style YAML ou simplement utiliser rapidement les paramètres par défaut dans les fichiers de configuration que nous fournissons. Voici un exemple de fichier de configuration pour Self-Instruct :

 generator :
  SelfInstructGenerator :
    target_dir : data/generations/
    data_format : alpaca
    seed_tasks_path : data/seed_tasks.jsonl
    generated_instructions_path : generated_instructions.jsonl
    generated_instances_path : generated_instances.jsonl
    num_instructions_to_generate : 100
    engine : gpt-3.5-turbo
    num_prompt_instructions : 8

D'autres exemples de fichiers de configuration peuvent être trouvés dans configs.

Étape 2 : Exécutez le script shell

Les utilisateurs doivent d'abord spécifier le fichier de configuration et fournir leur propre clé API OpenAI. Ensuite, exécutez le script shell suivant pour lancer le processus de génération ou de sélection d’instructions.

config_file= " "
openai_api_key= " "

python demo/run.py 
    --config  $config_file 
    --openai_api_key $openai_api_key

Application Gradio

Nous fournissons une application Gradio permettant aux utilisateurs de démarrer rapidement avec EasyInstruct. Vous pouvez exécuter la commande suivante pour lancer l'application Gradio localement sur le port 8080 (si disponible).

python demo/app.py

Nous hébergeons également une application gradio en cours d'exécution dans HuggingFace Spaces. Vous pouvez l'essayer ici.

?Utiliser EasyInstruct

Veuillez vous référer à nos documentations pour plus de détails.

Générateurs

Le module Generators rationalise le processus de génération de données d'instruction, permettant la génération de données d'instruction basées sur des données de départ. Vous pouvez choisir le générateur approprié en fonction de vos besoins spécifiques.

Générateur de base

BaseGenerator est la classe de base pour tous les générateurs.

Vous pouvez également facilement hériter de cette classe de base pour personnaliser votre propre classe génératrice. Remplacez simplement la méthode __init__ et generate .

Générateur d'auto-instructions

SelfInstructGenerator est la classe de la méthode de génération d'instructions de Self-Instruct. Voir Auto-instruction : aligner le modèle de langage avec les instructions auto-générées pour plus de détails.

Exemple

 from easyinstruct import SelfInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = SelfInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate self-instruct data
generator . generate ()

Générateur de traduction inverse

BacktranslationGenerator est la classe pour la méthode de génération d’instructions d’Instruction Backtranslation. Voir Auto-alignement avec traduction inverse des instructions pour plus de détails.

Exemple

 from easyinstruct import BacktranslationGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = BacktranslationGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate backtranslation data
generator . generate ()

EvolInstructGenerator

EvolInstructGenerator est la classe de la méthode de génération d'instructions d'EvolInstruct. Voir WizardLM : Permettre aux grands modèles de langage de suivre des instructions complexes pour plus de détails.

Exemple

 from easyinstruct import EvolInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = EvolInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate evolution data
generator . generate ()

KG2InstructGenerator

KG2InstructGenerator est la classe de la méthode de génération d'instructions de KG2Instruct. Voir InstructIE : un ensemble de données d'extraction d'informations basées sur des instructions chinoises pour plus de détails.

Sélecteurs

Le module Selectors standardise le processus de sélection des instructions, permettant l'extraction d'ensembles de données d'instructions de haute qualité à partir de données d'instructions brutes et non traitées. Les données brutes peuvent provenir d’ensembles de données d’instructions accessibles au public ou être générées par le framework lui-même. Vous pouvez choisir le sélecteur approprié en fonction de vos besoins spécifiques.

Sélecteur de base

BaseSelector est la classe de base pour tous les sélecteurs.

Vous pouvez également facilement hériter de cette classe de base pour personnaliser votre propre classe de sélecteur. Remplacez simplement les méthodes __init__ et __process__ .

Déduplicateur

Deduplicator est la classe permettant d'éliminer les échantillons d'instructions en double qui pourraient nuire à la fois à la stabilité avant la formation et aux performances des LLM. Deduplicator peut également permettre une utilisation et une optimisation efficaces de l'espace de stockage.

Sélecteur de longueur

LengthSelector est la classe permettant de sélectionner des échantillons d'instructions en fonction de la longueur de l'instruction. Les instructions trop longues ou trop courtes peuvent affecter la qualité des données et ne sont pas propices au réglage des instructions.

RougeSélecteur

RougeSelector est la classe de sélection d'échantillons d'instructions basée sur la métrique ROUGE qui est souvent utilisée pour évaluer la qualité de la génération automatisée de texte.

Sélecteur GPTScore

GPTScoreSelector est la classe permettant de sélectionner des échantillons d'instructions en fonction du score GPT, qui indique si le résultat est un bon exemple de la façon dont AI Assistant doit répondre aux instructions de l'utilisateur, fournies par ChatGPT.

Sélecteur PPLS

PPLSelector est la classe permettant de sélectionner des échantillons d'instructions en fonction de la perplexité, qui est la probabilité logarithmique négative moyenne exponentiée de réponse.

Sélecteur MTLD

MTLDSelector est la classe permettant de sélectionner des échantillons d'instructions basés sur le MTLD, qui est l'abréviation de Measure of Textual Lexical Diversity.

Sélecteur de code

CodeSelector est la classe permettant de sélectionner des échantillons d'instructions de code basées sur le score de raisonnement impacté par la complexité (CIRS), qui combine des attributs structurels et logiques, pour mesurer la corrélation entre le code et les capacités de raisonnement. Voir Quand le programme de pensées fonctionne-t-il pour le raisonnement ? pour plus de détails.

Exemple

 from easyinstruct import CodeSelector

# Step1: Specify your source file of code instructions
src_file = "data/code_example.json"

# Step2: Declare a code selecter class
selector = CodeSelector (
    source_file_path = src_file , 
    target_dir = "data/selections/" ,
    manually_partion_data = True ,
    min_boundary = 0.125 ,
    max_boundary = 0.5 ,
    automatically_partion_data = True ,
    k_means_cluster_number = 2 ,
    )

# Step3: Process the code instructions
selector . process ()

MultiSélecteur

MultiSelector est la classe permettant de combiner plusieurs sélecteurs appropriés en fonction de vos besoins spécifiques.

Invites

Le module Prompts standardise l'étape d'invite d'instructions, où les demandes des utilisateurs sont construites sous forme d'invites d'instructions et envoyées à des LLM spécifiques pour obtenir des réponses. Vous pouvez choisir la méthode d'invite appropriée en fonction de vos besoins spécifiques.

Veuillez consulter le lien pour plus de détails.

Moteurs

Le module Engines standardise le processus d'exécution des instructions, permettant l'exécution d'invites d'instructions sur des LLM spécifiques déployés localement. Vous pouvez choisir le moteur approprié en fonction de vos besoins spécifiques.

Veuillez consulter le lien pour plus de détails.

Citation

Veuillez citer notre référentiel si vous utilisez EasyInstruct dans votre travail.

 @article { ou2024easyinstruct ,
  title = { EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models } ,
  author = { Ou, Yixin and Zhang, Ningyu and Gui, Honghao and Xu, Ziwen and Qiao, Shuofei and Bi, Zhen and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2402.03049 } ,
  year = { 2024 }
}

@misc { knowlm ,
  author = { Ningyu Zhang and Jintian Zhang and Xiaohan Wang and Honghao Gui and Kangwei Liu and Yinuo Jiang and Xiang Chen and Shengyu Mao and Shuofei Qiao and Yuqi Zhu and Zhen Bi and Jing Chen and Xiaozhuan Liang and Yixin Ou and Runnan Fang and Zekun Xi and Xin Xu and Lei Li and Peng Wang and Mengru Wang and Yunzhi Yao and Bozhong Tian and Yin Fang and Guozhou Zheng and Huajun Chen } ,
  title = { KnowLM: An Open-sourced Knowledgeable Large Langugae Model Framework } ,
  year = { 2023 } ,
 url = { http://knowlm.zjukg.cn/ } ,
}

@article { bi2023program ,
  title = { When do program-of-thoughts work for reasoning? } ,
  author = { Bi, Zhen and Zhang, Ningyu and Jiang, Yinuo and Deng, Shumin and Zheng, Guozhou and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2308.15452 } ,
  year = { 2023 }
}

?Contributeurs

Nous proposerons une maintenance à long terme pour corriger les bugs, résoudre les problèmes et répondre aux nouvelles demandes. Donc, si vous rencontrez des problèmes, veuillez nous en faire part.

Autres projets connexes

Auto-instruction
Alpaga

? Nous tenons à exprimer notre sincère gratitude pour la contribution de Self-Instruct à notre projet, car nous avons utilisé des parties de leur code source dans notre projet.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-09
taille 19.4MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout