Download CareGPT - Download do código-fonte CareGPT

CareGPT

Código-Fonte de IA

1.0.0

Baixar

Chinês | Inglês

Tutorial em vídeo Instalação e implantação Experiência on-line

⚡Recursos:

Adicionada implementação de ajuste fino do ChatGPT e amigos recomendados com créditos para conduzir experimentos de ajuste fino no ChatGPT;
Suporta modelo de ajuste fino de implantação ChatGPT-Next-Web;
Suporta modelos de ajuste fino de implantação Gradio;
Suporta treinamento de modelo de série completa LLaMA e LLaMA-2;
Suporta LoRA e QLoRA, incluindo treinamento de aprendizagem de reforço PPO e DPO subsequente;
Suporta perguntas e respostas combinadas com modelos e base de conhecimento;
Informações de material de orientação médica de código aberto para mais de 60 departamentos hospitalares;
Desenvolvi uma ferramenta para apoiar a destilação do modelo GPT-4/ChatGPT de dados médicos, que pode gerar vários dados em lote para construir uma base de conhecimento e ajuste fino;
Ele agrega uma riqueza de LLM médico de código aberto, dados médicos para treinamento de LLM, dados de implantação de LLM, avaliação de LLM e coleta de recursos de LLM relacionados;
Participamos da avaliação da lista CMB de LLMs médicos - IvyGPT. No teste, ficamos à frente do ChatGPT e de vários LLMs médicos de código aberto;
Temos vários LLMs médicos de código aberto treinados em diferentes LLMs de base com base em nossos próprios conjuntos de dados. Você pode baixá-los diretamente para experimentar;

?Conjunto de dados

Dados pré-treinamento

LLM-Pretrain-FineTune/data_pretrain
MédicoGPT/pré-treinamento
zyj
TCM-Ancient-Books (quase 700 textos antigos de medicina chinesa)
epfl-llm/diretrizes

Dados de treinamento supervisionado

icliniq-10k(pt)
HealthCareMagic-100k(pt)
ShenNong_TCM_Dataset
✅ChatMed_Consult_Dataset
Dados do diálogo médico chinês
cMedQA2
✅Huatuo-26M
cMedQA2
webMedQA
PubMedQA
CMCQA
✅QiZhenGPT
✅LLM-Pretrain-FineTune/data_sft
Sistema de Diálogo Médico
IMCS-V2
CHIP-MDCFNPC
MedDG
✅HuatuoGPT-sft-data-v1
MédicoGPT/finetune
✅shibing624/médico
medAlpaca/dados
✅Zhongjing/sft
diálogo_médico
huatuo_encyclopedia_qa
Med-ChatGLM/dados
CMB
GenMedGPT-5k(pt)
Alpaca-CoT(geral)
✅DISC-Med-SFT
✅HuatuoGPT2_sft_instruct
FreedomIntelligence/Medbase_data
openmedlab/Awesome-Medical-Dataset

Dados de treinamento de recompensa

MédicoGPT/recompensa
Zhongjing/rw
comparação_gpt4_data
HH-RLHF
UltraFeedback

?️Treinamento de processo completo

1. Instale dependências

 conda create - n llm python = 3.11
conda activate llm
python - m pip install - r requirements . txt

Download do modelo LLaMA: https://blog.csdn.net/u014297502/article/details/129829677

 # 转为HF格式
python - m transformers . models . llama . convert_llama_weights_to_hf 
    - - input_dir path_to_llama_weights - - model_size 7 B - - output_dir path_to_llama_model

Download do modelo LLaMA-2: https://huggingface.co/meta-llama

2.Configuração de dados

Configuração do conjunto de dados, formato de dados PT, SFT, RW

conjunto de dados_info

Se você usar um conjunto de dados personalizado, forneça a definição do conjunto de dados no arquivo dataset_info.json no formato a seguir.

 "数据集名称" : {
  "hf_hub_url" : " HuggingFace上的项目地址（若指定，则忽略下列三个参数） " ,
  "script_url" : "包含数据加载脚本的本地文件夹名称（若指定，则忽略下列两个参数） " ,
  "file_name" : "该目录下数据集文件的名称（若上述参数未指定，则此项必需） " ,
  "file_sha1" : "数据集文件的SHA-1哈希值（可选） " ,
  "columns" : {
    "prompt" : "数据集代表提示词的表头名称（默认：instruction） " ,
    "query" : "数据集代表请求的表头名称（默认：input） " ,
    "response" : "数据集代表回答的表头名称（默认：output） " ,
    "history" : "数据集代表历史对话的表头名称（默认：None） "
  }
}

As colunas de prompt e response devem ser strings não vazias. O conteúdo da coluna de query será concatenado com a coluna prompt como entrada do modelo. A coluna history deve ser uma lista, onde cada elemento é uma tupla de string representando a solicitação do usuário e a resposta do modelo, respectivamente.

Dados de exemplo de PT

Formato .txt , um dado não supervisionado por linha.

Machine learning (ML) is a field devoted to understanding and building methods that let machines "learn" – that is, methods that leverage data to improve computer performance on some set of tasks.
Machine learning algorithms build a model based on sample data, known as training data, in order to make predictions or decisions without being explicitly programmed to do so. Machine learning algorithms are used in a wide variety of applications, such as in medicine, email filtering, speech recognition, agriculture, and computer vision, where it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.

Dados de exemplo SFT 1

[
  {
    "instruction" : "听起来很不错。人工智能可能在哪些方面面临挑战呢？ " ,
    "input" : " " ,
    "output" : "人工智能面临的挑战包括数据隐私、安全和道德方面的问题，以及影响就业机会的自动化等问题。 " ,
    "history" : [
      [ "你好，你能帮我解答一个问题吗？ " , "当然，请问有什么问题？ " ],
      [ "我想了解人工智能的未来发展方向，你有什么想法吗？ " , "人工智能在未来的发展方向可能包括更强大的机器学习算法，更先进的自然语言处理技术，以及更加智能的机器人。 " ]
    ]
  }
]

Dados de exemplo SFT 2

[
  {
    "instruction" : "听起来很不错。人工智能可能在哪些方面面临挑战呢？ " ,
    "input" : " " ,
    "output" : "人工智能面临的挑战包括数据隐私、安全和道德方面的问题，以及影响就业机会的自动化等问题。 " ,
    "history" : []
  }
]

Dados de exemplo RW

[
  {
    "instruction" : "生成三个与“道歉”意思相同的动词" ,
    "input" : " " ,
    "output" : [
      "承认，表示遗憾，弥补。 " ,
      "道歉"
    ]
  }
]

3. Configuração de treinamento

Parâmetros e instruções de treinamento

Configurar distribuído

Verifique se sua placa gráfica está conectada ao NVLINK Somente com a conexão NVLINK você pode usar efetivamente accelerate para treinamento acelerado paralelo.

 nvidia-smi topo -m

 accelerate config # configure the environment
accelerate launch src / train_bash . py # arguments (same as above)

Treinamento supervisionado

 # LLaMA-2
accelerate launch src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_train 
    - - dataset mm 
    - - finetuning_type lora 
    - - quantization_bit 4 
    - - overwrite_cache 
    - - output_dir output 
    - - per_device_train_batch_size 8 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 1000 
    - - learning_rate 5e-5 
    - - num_train_epochs 2.0 
    - - plot_loss 
    - - fp16 
    - - template llama2 
    - - lora_target q_proj , v_proj

# LLaMA
accelerate launch src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_train 
    - - dataset mm , hm 
    - - finetuning_type lora 
    - - overwrite_cache 
    - - output_dir output - 1 
    - - per_device_train_batch_size 4 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 2000 
    - - learning_rate 5e-5 
    - - num_train_epochs 2.0 
    - - plot_loss 
    - - fp16 
    - - template default 
    - - lora_target q_proj , v_proj

aprendizagem por reforço

 # LLaMA-2, DPO
accelerate launch src / train_bash . py 
    - - stage dpo 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_train 
    - - dataset rlhf 
    - - template llama2 
    - - finetuning_type lora 
    - - quantization_bit 4 
    - - lora_target q_proj , v_proj 
    - - resume_lora_training False 
    - - checkpoint_dir . / output - 2 
    - - output_dir output - dpo 
    - - per_device_train_batch_size 2 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 1000 
    - - learning_rate 1e-5 
    - - num_train_epochs 1.0 
    - - plot_loss 
    - - fp16

4. Configuração de inferência

Parâmetros e instruções de inferência

Acesso à Web

 # LLaMA-2
python src / web_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / web_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / web_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

Acesso à API

 # LLaMA-2
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / api_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

API de teste:

 curl - X 'POST' 
    'http://127.0.0.1:8888/v1/chat/completions' 
    - H 'accept: application/json' 
    - H 'Content-Type: application/json' 
    - d ' {
    "model" : "string",
    "messages": [
      {
        "role" : "user",
        "content": "你好"
      }
    ],
    " temperature ": 0 ,
    "top_p" : 0 ,
    "max_new_tokens" : 0 ,
    "stream" : false
  }'

Acesso CLI

 # LLaMA-2
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

Previsão em lote

 # LLaMA-2
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_predict 
    - - dataset mm 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir predict_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

# LLaMA
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_predict 
    - - dataset mm 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir predict_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

Avaliação experimental (BLEU e ROUGE_CHINESE)

 # LLaMA-2
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_eval 
    - - dataset mm 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir eval_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

# LLaMA
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_eval 
    - - dataset mm 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir eval_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

Para avaliação de 4/8 bits, é recomendado usar --per_device_eval_batch_size=1 e --max_target_length 128

5. Implantação Gradio

Instruções de implantação do Gradio

Exportação de modelo

 # LLaMA-2
python src / export_model . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir output_export

# LLaMA
python src / export_model . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir output_export

Comece a correr

 % cd Gradio
python app . py

6. Implantação ChatGPT-Next-Web

Próximas instruções de implantação

Iniciar serviço de API

 # LLaMA-2
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / api_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

Baixe o próximo e execute

BaixarPróximo:

Modificar configuração: Instale e abra Próximo, abra设置, modifique接口地址para: http://127.0.0.1:8000/ (ou seja, seu endereço de interface API) e então você pode usá-lo.

?Experiência prática

No CareGPT, a segmentação de palavras chinesas não é adicionada e retreinada ao modelo de segmentação de palavras, mas o efeito ainda é promissor;
Todo o processo de treinamento LLM inclui: pré-treinamento, ajuste fino supervisionado, modelo de recompensa e aprendizagem por reforço. Na maioria dos casos, o ajuste fino supervisionado pode atender às suas próprias necessidades ;
Quando o poder computacional é suficiente, recomenda-se o uso de dados médicos e dados gerais do corpus para treinamento , para que o modelo possa não apenas ter treinamento e aprendizado médico, mas também manter capacidades gerais (como seguir instruções);
Não espere que um LLM médico possa atender a todas as necessidades. Uma abordagem razoável pode ser uma base de conhecimento atualizada em tempo real + LLM médico ajustado (como ChatLaw);
A série de modelos BLOOMZ foi treinada usando o corpus PILE, que contém vários textos médicos, incluindo PubMed Central e PubMed Abstracts . Estes textos valiosos enriqueceram enormemente o sistema de conhecimento médico do modelo BLOOMZ, por isso muitos projetos de código aberto darão prioridade ao BLOOMZ como modelo base para o ajuste fino médico;
(2023.08.26) ChatGPT é treinado com base no Código GPT Usaremos CodeLLaMA para ajustar tarefas downstream para obter melhores resultados do que o ajuste fino em LLaMA-1/2?
A combinação de nosso trabalho recente com muitos trabalhos publicados recentemente prova: Na era LLM,质量> 数量é a verdade, como: Menos é mais! MiniGPT-4! , dados SFT de escala extremamente grande enfraquecerão o LLM de tarefa downstream ou perderão ICL, CoT e outras capacidades;
Para modelos verticais, talvez devêssemos prestar mais atenção ao processo PT em vez de coletar dezenas de milhões de dados SFT para treinamento. Nossa sugestão é大规模预训练+小规模监督微调=超强的LLM模型;
Um bom LLM médico pré-treinado ainda não foi aberto na comunidade de código aberto e espero que alguém possa complementar esse trabalho;
O pré-treinamento pode infundir conhecimento, enquanto o ajuste fino supervisionado apenas ativa capacidades de domínio (não pode focar no conhecimento)? O conhecimento pré-treinamento deveria ecoar o conhecimento de ajuste fino supervisionado? Será que as dezenas de GB de conhecimento do corpus pré-treinado serão sobrecarregadas pelo conhecimento do modelo original pré-treinado de trilhões de tokens?
O pré-treinamento secundário de uma grande quantidade de dados requer a correspondência de vários tipos de outros dados: (1) Após a conclusão do treinamento do modelo de linguagem, as partes responsáveis de cada área dos parâmetros foram determinadas. que não está disponível durante o pré-treinamento, os parâmetros aumentarão, causando perda de toda a capacidade do modelo de linguagem; (2) Para pré-treinamento secundário de dados em grande escala, 5 a 10 vezes os dados do original; o pré-treinamento precisa ser adicionado, misturado e treinado em conjunto;
A fase de ajuste fino da instrução não pode conduzir muitas rodadas de treinamento: (1) O treinamento de múltiplas EPOCHs em uma pequena quantidade de dados pode causar alterações em áreas-chave da linguagem, levando ao fracasso de todo o modelo; -ajuste para melhorias de tarefas específicas. Para garantir que as principais áreas das capacidades linguísticas do modelo não sejam ajustadas significativamente, é necessário adicionar dados de ajuste fino de instrução geral ou dados de pré-treinamento;
Os dados de treinamento devem controlar estritamente o ruído: (1) Se houver uma pequena quantidade de dados de ruído contínuo nos dados de pré-treinamento, como repetição contínua de palavras, sequências de não-palavras, etc., isso pode causar ajustes em dimensões específicas, fazendo com que o PPL geral do modelo flutue significativamente (2) Se houver um grande número de fragmentos de instruções nas instruções de ajuste fino supervisionadas que não correspondem ao modelo original de linguagem grande, isso também pode fazer com que o modelo ajuste dimensões específicas; , reduzindo significativamente o desempenho geral do modelo;
Ao ajustar um modelo grande com dados mistos de múltiplas capacidades, aparecerá: alto conflito de recursos e baixo ganho de recursos, portanto, misturar dados diferentes para ajuste fino requer certas habilidades de engenharia;
De modo geral, há uma diferença de desempenho não negligenciável entre lora e ajuste completo (como LoRA resulta em desempenho 4-6% menor em comparação com ajuste fino completo);
Por favor, dê prioridade ao método de ajuste fino de parâmetros completos para modelos da série 7B LoRA, QLoRA e outros métodos podem ser usados para modelos de parâmetros 13B e superiores;
Mesmo que um modelo de parâmetros muito grandes seja quantificado, suas capacidades ainda podem ser bem mantidas;
Embora o treinamento LLM (ou todos os modelos treinados em GPU) tenha aleatoriedade inevitável, os resultados do treinamento multi-lun ainda são muito consistentes;
Se você estiver limitado pela memória da GPU, o QLoRA oferece um compromisso econômico. Economiza 33% de memória ao custo de um aumento de 39% no tempo de execução;
Ao ajustar o LLM, a escolha do otimizador não é o principal fator que afeta os resultados. Quer seja AdamW, SGD com agendador ou AdamW com agendador, o impacto nos resultados é mínimo;
Embora Adam seja frequentemente considerado um otimizador com uso intensivo de memória porque introduz dois novos parâmetros para cada parâmetro do modelo, isso não afeta significativamente os requisitos de pico de memória do LLM. Isso ocorre porque a maior parte da memória será alocada para multiplicação de matrizes grandes, em vez de armazenar parâmetros extras;
Para conjuntos de dados estáticos, múltiplas iterações, como múltiplas rodadas de treinamento, podem não funcionar bem. Isso muitas vezes leva a um overfitting, piorando os resultados do treinamento;
Se quiser combinar LoRA, certifique-se de que ele seja aplicado em todas as camadas, não apenas na matriz Chave e Valor, para maximizar o desempenho do modelo;
É crucial ajustar a classificação LoRA e escolher um valor α apropriado. Para fornecer um pequeno truque, tente definir o valor α para o dobro do valor da classificação;
Uma única GPU com 14 GB de RAM pode ajustar com eficiência um modelo grande com 7 bilhões de parâmetros em poucas horas. Para conjuntos de dados estáticos, é impossível fortalecer o LLM em um “versátil” e ter um bom desempenho em todas as tarefas básicas. A resolução deste problema requer fontes de dados diversificadas ou a utilização de outras tecnologias além da LoRA;
De acordo com as recomendações do workshop NeurIPS, em 18 de dezembro de 2023, a seleção recomendada de modelos ajustados英文10B以下选择Mistral-7B中文, 10B以下选择Yi-6B 10B e 10B以上选择Qwen-14B和Yi-34B ;

Importante

Todos são bem-vindos para adicionar novas experiências ao ISSUE!

11 ~ 13 A metodologia vem de 13 bilhões de grandes modelos de linguagem. Alterar apenas um peso perderá completamente a habilidade linguística! As pesquisas mais recentes do Laboratório de Processamento de Linguagem Natural da Universidade Fudan.

14Metodologia de como as habilidades em modelos de linguagem grande são afetadas pela composição de dados de ajuste fino supervisionado

A metodologia 17 ~ 25 vem de LLM Optimization: Layer-wise Optimal Rank Adaptation (LORA) Interpretação da versão chinesa

?Modelo de código aberto

estágio	Introdução aos pesos	Endereço de download	Características	modelo básico	método de ajuste fino	Conjunto de dados
?Supervisão e ajuste fino	Os dados de diálogo multivoltas são treinados com base no LLaMA2-7b-Chat	CareLlama2-7b-chat-sft-multi、?CareLlama2-7b-multi	Excelentes habilidades de conversação em várias voltas	LLaMA2-7b-Chat	QLoRA	milímetros
Supervisionar o ajuste fino	Dados ricos e eficientes do diálogo médico-paciente são treinados com base no LLaMA2-7b-Chat	CareLlama2-7b-chat-sft-med	Excelentes capacidades de diagnóstico de doenças do paciente	LLaMA2-7b-Chat	QLoRA	hum
supervisionar

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2024-12-09
tamanho 22.13MB
Vindo de Github

Aplicativos Relacionados

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
node telegram bot api

Código-Fonte de IA

v0.50.0
typebot.io

Código-Fonte de IA

v3.1.2
python wechaty getting started

Código-Fonte de IA

1.0.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos