Download EasyInstruct - Download do código-fonte EasyInstruct

EasyInstruct

Código-Fonte de IA

1.0.0

Baixar

Uma estrutura de processamento de instruções fácil de usar para grandes modelos de linguagem.

Projeto • Artigo • Demonstração • Visão geral • Instalação • Início rápido • Como usar • Documentos • Vídeo • Citação • Colaboradores

Índice

O que há de novo
Visão geral
Instalação
Início rápido
- Script de shell
- Aplicativo Gradio
Use o EasyInstruct
- Geradores
- Seletores
- Solicitações
- Motores
Citação
Colaboradores

?Notícias

04/06/2024, EasyInstruct é aceito pelo ACL 2024 System Demonstration Track. ??
2024-02-06 Lançamos um novo artigo: "EasyInstruct: Uma estrutura de processamento de instruções fácil de usar para modelos de linguagem grande" com uma demonstração HF EasyInstruct.
2024-02-06 Lançamos uma ferramenta preliminar EasyDetect para detecção de alucinações, com uma demonstração .
05/02/2024 Lançamos a versão 0.1.2, com suporte para novos recursos e otimizando a interface de funções.
2023-12-09 O artigo "Quando o programa de pensamentos funciona para o raciocínio?" (apoiado pelo EasyInstruct), é aceito pela AAAI 2024!
28/10/2023 Lançamos a versão 0.1.1, com suporte para novos recursos de geração e seleção de instruções.
09/08/2023 Lançamos a versão 0.0.6, com suporte para chamadas de API Cohere.
2023-07-12 Lançamos o EasyEdit, uma estrutura fácil de usar para editar modelos de linguagem grande.

Notícias anteriores

23/05/2023 Lançamos a versão 0.0.5, removendo o requisito de llama-cpp-python.
16/05/2023 Lançamos a versão 0.0.4, corrigindo alguns problemas.
2023-4-21 Lançamos a versão 0.0.3, confira nossa documentação para mais detalhes.
25/03/2023 Lançamos a versão 0.0.2, com suporte para IndexPrompt, MMPrompt, IEPrompt e mais LLMs
13/03/2023 Lançamos a versão 0.0.1, com suporte para aprendizagem em contexto e cadeia de pensamento com ChatGPT.

Este repositório é um subprojeto do KnowLM.

?Visão geral

EasyInstruct é um pacote Python proposto como uma estrutura de processamento de instruções fácil de usar para Large Language Models (LLMs) como GPT-4, LLaMA, ChatGLM em seus experimentos de pesquisa. EasyInstruct modulariza a geração, seleção e solicitação de instruções, ao mesmo tempo que considera sua combinação e interação.

As técnicas atuais de geração de instruções suportadas são as seguintes:

Métodos	Descrição
Auto-instruir	O método que amostra aleatoriamente algumas instruções de um conjunto de tarefas iniciais anotadas por humanos como demonstrações e solicita que um LLM gere mais instruções e pares de entrada-saída correspondentes.
Evol-Instruir	O método que atualiza gradativamente um conjunto inicial de instruções em instruções mais complexas, solicitando um LLM com prompts específicos.
Retrotradução	O método que cria uma instrução seguindo uma instância de treinamento, prevendo uma instrução que seria respondida corretamente por uma parte de um documento do corpus.
KG2Instruir	O método que cria uma instrução seguindo uma instância de treinamento, prevendo uma instrução que seria respondida corretamente por uma parte de um documento do corpus.

As atuais métricas de seleção de instruções suportadas são as seguintes:

Métricas	Notação	Descrição
Comprimento	$len$	O comprimento limitado de cada par de instrução e resposta.
Perplexidade	$PPL$	A média exponenciada da probabilidade logarítmica negativa de resposta.
MTLD	$MTLD$	Medida da diversidade lexical textual, o comprimento médio de palavras sequenciais em um texto que mantém um limite mínimo de pontuação TTR.
ROUGE	$ROUGE$	Subestudo orientado para recordação para avaliação de Gisting, um conjunto de métricas usadas para avaliar semelhanças entre sentenças.
Pontuação GPT	$GPT$	A pontuação sobre se a saída é um bom exemplo de como o AI Assistant deve responder às instruções do usuário, fornecida pelo ChatGPT.
CIRS	$CIRS$	A pontuação usa a árvore de sintaxe abstrata para codificar atributos estruturais e lógicos, para medir a correlação entre código e habilidades de raciocínio.

Provedores de serviços de API e seus produtos LLM correspondentes que estão disponíveis atualmente:

Modelo	Descrição	Versão padrão
OpenAI
GPT-3.5	Um conjunto de modelos que melhoram o GPT-3 e podem compreender e gerar linguagem ou código natural.	`gpt-3.5-turbo`
GPT-4	Um conjunto de modelos que melhoram o GPT-3.5 e podem compreender e gerar linguagem natural ou código.	`gpt-4`
Antrópico
Cláudio	Um assistente de IA de última geração baseado na pesquisa da Anthropic sobre treinamento de sistemas de IA úteis, honestos e inofensivos.	`claude-2.0`
Claude-Instantâneo	Uma opção mais leve, menos cara e muito mais rápida que Claude.	`claude-instant-1.2`
Coerente
Comando	Um modelo carro-chefe de geração de texto do Cohere treinado para seguir comandos do usuário e ser instantaneamente útil em aplicações práticas de negócios.	`command`
Comando-Luz	Uma versão light dos modelos Command que são mais rápidas, mas podem produzir texto gerado de qualidade inferior.	`command-light`

?Instalação

Instalação do branch repo git:

 pip install git+https://github.com/zjunlp/EasyInstruct@main

Instalação para desenvolvimento local:

 git clone https://github.com/zjunlp/EasyInstruct
cd EasyInstruct
pip install -e .

Instalação usando PyPI (não a versão mais recente):

 pip install easyinstruct -i https://pypi.org/simple

⏩Início rápido

Oferecemos duas maneiras para os usuários começarem rapidamente a usar o EasyInstruct. Você pode usar o script shell ou o aplicativo Gradio com base em suas necessidades específicas.

Script de shell

Passo 1: Prepare um arquivo de configuração

Os usuários podem configurar facilmente os parâmetros do EasyInstruct em um arquivo estilo YAML ou simplesmente usar rapidamente os parâmetros padrão nos arquivos de configuração que fornecemos. A seguir está um exemplo do arquivo de configuração do Self-Instruct:

 generator :
  SelfInstructGenerator :
    target_dir : data/generations/
    data_format : alpaca
    seed_tasks_path : data/seed_tasks.jsonl
    generated_instructions_path : generated_instructions.jsonl
    generated_instances_path : generated_instances.jsonl
    num_instructions_to_generate : 100
    engine : gpt-3.5-turbo
    num_prompt_instructions : 8

Mais exemplos de arquivos de configuração podem ser encontrados em configs.

Etapa 2: execute o script de shell

Os usuários devem primeiro especificar o arquivo de configuração e fornecer sua própria chave de API OpenAI. Em seguida, execute o seguinte script de shell para iniciar o processo de geração ou seleção de instruções.

config_file= " "
openai_api_key= " "

python demo/run.py 
    --config  $config_file 
    --openai_api_key $openai_api_key

Aplicativo Gradio

Fornecemos um aplicativo Gradio para que os usuários possam começar a usar o EasyInstruct rapidamente. Você pode executar o seguinte comando para iniciar o aplicativo Gradio localmente na porta 8080 (se disponível).

python demo/app.py

Também hospedamos um aplicativo gradio em execução no HuggingFace Spaces. Você pode experimentar aqui.

?Usar EasyInstruct

Consulte nossa documentação para obter mais detalhes.

Geradores

O módulo Generators agiliza o processo de geração de dados de instrução, permitindo a geração de dados de instrução com base em dados iniciais. Você pode escolher o gerador apropriado com base em suas necessidades específicas.

Gerador de Base

BaseGenerator é a classe base para todos os geradores.

Você também pode herdar facilmente essa classe base para personalizar sua própria classe geradora. Basta substituir o método __init__ e generate .

Gerador SelfInstruct

SelfInstructGenerator é a classe para o método de geração de instruções do Self-Instruct. Consulte Autoinstrução: Alinhando modelo de linguagem com instruções autogeradas para obter mais detalhes.

Exemplo

 from easyinstruct import SelfInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = SelfInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate self-instruct data
generator . generate ()

Gerador de tradução reversa

BacktranslationGenerator é a classe para o método de geração de instruções de Instrução Backtranslation. Consulte Auto-alinhamento com retrotradução de instruções para obter mais detalhes.

Exemplo

 from easyinstruct import BacktranslationGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = BacktranslationGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate backtranslation data
generator . generate ()

EvolInstructGenerator

EvolInstructGenerator é a classe para o método de geração de instruções do EvolInstruct. Consulte WizardLM: Capacitando Modelos de Linguagem Grande para Seguir Instruções Complexas para obter mais detalhes.

Exemplo

 from easyinstruct import EvolInstructGenerator
from easyinstruct . utils . api import set_openai_key

# Step1: Set your own API-KEY
set_openai_key ( "YOUR-KEY" )

# Step2: Declare a generator class
generator = EvolInstructGenerator ( num_instructions_to_generate = 10 )

# Step3: Generate evolution data
generator . generate ()

KG2InstructGenerator

KG2InstructGenerator é a classe para o método de geração de instruções do KG2Instruct. Consulte InstructIE: um conjunto de dados de extração de informações baseado em instruções chinesas para obter mais detalhes.

Seletores

O módulo Selectors padroniza o processo de seleção de instruções, permitindo a extração de conjuntos de dados de instruções de alta qualidade a partir de dados de instruções brutos e não processados. Os dados brutos podem ser provenientes de conjuntos de dados de instruções disponíveis publicamente ou gerados pela própria estrutura. Você pode escolher o seletor apropriado com base em suas necessidades específicas.

Seletor de base

BaseSelector é a classe base para todos os seletores.

Você também pode herdar facilmente essa classe base para personalizar sua própria classe de seletor. Basta substituir os métodos __init__ e __process__ .

Desduplicador

Deduplicator é a classe para eliminar amostras de instruções duplicadas que podem afetar adversamente a estabilidade pré-treinamento e o desempenho dos LLMs. Deduplicator também permite o uso eficiente e a otimização do espaço de armazenamento.

Seletor de comprimento

LengthSelector é a classe para selecionar amostras de instruções com base no comprimento da instrução. Instruções muito longas ou muito curtas podem afetar a qualidade dos dados e não favorecem o ajuste das instruções.

RougeSelector

RougeSelector é a classe para selecionar amostras de instruções com base na métrica ROUGE, que é frequentemente usada para avaliar a qualidade da geração automatizada de texto.

Seletor GPTScore

GPTScoreSelector é a classe para selecionar amostras de instruções com base na pontuação GPT, que reflete se a saída é um bom exemplo de como o AI Assistant deve responder às instruções do usuário, fornecidas pelo ChatGPT.

Seletor PPLS

PPLSelector é a classe para selecionar amostras de instruções com base na perplexidade, que é a probabilidade logarítmica negativa média exponenciada de resposta.

Seletor MTLD

MTLDSelector é a classe para selecionar amostras de instruções com base no MTLD, que é a abreviação de Measure of Textual Lexical Diversity.

Seletor de código

CodeSelector é a classe para seleção de amostras de instruções de código com base no Complexity-Impacted Reasoning Score (CIRS), que combina atributos estruturais e lógicos, para medir a correlação entre código e habilidades de raciocínio. Veja Quando o programa de pensamentos funciona para o raciocínio? para mais detalhes.

Exemplo

 from easyinstruct import CodeSelector

# Step1: Specify your source file of code instructions
src_file = "data/code_example.json"

# Step2: Declare a code selecter class
selector = CodeSelector (
    source_file_path = src_file , 
    target_dir = "data/selections/" ,
    manually_partion_data = True ,
    min_boundary = 0.125 ,
    max_boundary = 0.5 ,
    automatically_partion_data = True ,
    k_means_cluster_number = 2 ,
    )

# Step3: Process the code instructions
selector . process ()

Multisseletor

MultiSelector é a classe para combinar vários seletores apropriados com base em suas necessidades específicas.

Solicitações

O módulo Prompts padroniza a etapa de prompts de instruções, onde as solicitações do usuário são construídas como prompts de instruções e enviadas a LLMs específicos para obter respostas. Você pode escolher o método de solicitação apropriado com base em suas necessidades específicas.

Por favor, verifique o link para mais detalhes.

Motores

O módulo Engines padroniza o processo de execução de instruções, permitindo a execução de prompts de instrução em LLMs específicos implantados localmente. Você pode escolher o mecanismo apropriado com base em suas necessidades específicas.

Por favor, verifique o link para mais detalhes.

Citação

Por favor, cite nosso repositório se você usa EasyInstruct em seu trabalho.

 @article { ou2024easyinstruct ,
  title = { EasyInstruct: An Easy-to-use Instruction Processing Framework for Large Language Models } ,
  author = { Ou, Yixin and Zhang, Ningyu and Gui, Honghao and Xu, Ziwen and Qiao, Shuofei and Bi, Zhen and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2402.03049 } ,
  year = { 2024 }
}

@misc { knowlm ,
  author = { Ningyu Zhang and Jintian Zhang and Xiaohan Wang and Honghao Gui and Kangwei Liu and Yinuo Jiang and Xiang Chen and Shengyu Mao and Shuofei Qiao and Yuqi Zhu and Zhen Bi and Jing Chen and Xiaozhuan Liang and Yixin Ou and Runnan Fang and Zekun Xi and Xin Xu and Lei Li and Peng Wang and Mengru Wang and Yunzhi Yao and Bozhong Tian and Yin Fang and Guozhou Zheng and Huajun Chen } ,
  title = { KnowLM: An Open-sourced Knowledgeable Large Langugae Model Framework } ,
  year = { 2023 } ,
 url = { http://knowlm.zjukg.cn/ } ,
}

@article { bi2023program ,
  title = { When do program-of-thoughts work for reasoning? } ,
  author = { Bi, Zhen and Zhang, Ningyu and Jiang, Yinuo and Deng, Shumin and Zheng, Guozhou and Chen, Huajun } ,
  journal = { arXiv preprint arXiv:2308.15452 } ,
  year = { 2023 }
}

?Contribuintes

Ofereceremos manutenção de longo prazo para corrigir bugs, resolver problemas e atender novas solicitações. Então, se você tiver algum problema, por favor, coloque-nos.

Outros projetos relacionados

Auto-instruir
Alpaca

? Gostaríamos de expressar nossa sincera gratidão pela contribuição do Self-Instruct em nosso projeto, pois utilizamos partes de seu código-fonte em nosso projeto.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-09
tamanho 19.4MB
Vindo de Github

Aplicativos Relacionados

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos