CareGPT下載 - CareGPT原始碼下載

CareGPT

Ai源碼

1.0.0

下載

中文｜ English

影片教學安裝部署線上體驗

⚡特性：

加入ChatGPT fine-tuning實現，推薦有額度的朋友在ChatGPT上進行微調實驗；
支援ChatGPT-Next-Web部署微調的模型；
支援Gradio部署微調的模型；
支援LLaMA、LLaMA-2全系列模型訓練；
支援LoRA、QLoRA，包括後續PPO、DPO強化學習訓練；
支持模型與知識庫結合問答；
開源了超過60個醫院科室的導診材料資訊；
開發了支持GPT-4/ChatGPT模型蒸餾醫學數據的工具，能夠批量產生各種用於建立知識庫和微調的數據；
聚合了豐富的開源醫學LLM、LLM訓練的醫學資料、LLM部署資料、LLM測評以及相關LLM的資源整理；
我們參與了醫學LLM的CMB榜單評測-IvyGPT，在測試中，我們領先ChatGPT及一眾開源醫學LLM；
我們基於自有資料集在不同基座LLM上訓練開源了多個醫療LLM，您可以直接下載體驗；

?資料集

預訓練數據

LLM-Pretrain-FineTune/data_pretrain
MedicalGPT/pretrain
zysj
TCM-Ancient-Books (近700項中醫藥古籍文本)
epfl-llm/guidelines

監督訓練數據

icliniq-10k(en)
HealthCareMagic-100k(en)
ShenNong_TCM_Dataset
✅ChatMed_Consult_Dataset
Chinese-medical-dialogue-data
cMedQA2
✅Huatuo-26M
cMedQA2
webMedQA
PubMedQA
CMCQA
✅QiZhenGPT
✅LLM-Pretrain-FineTune/data_sft
Medical-Dialogue-System
IMCS-V2
CHIP-MDCFNPC
MedDG
✅HuatuoGPT-sft-data-v1
MedicalGPT/finetune
✅shibing624/medical
medAlpaca/data
✅Zhongjing/sft
medical_dialog
huatuo_encyclopedia_qa
Med-ChatGLM/data
CMB
GenMedGPT-5k(en)
Alpaca-CoT(general)
✅DISC-Med-SFT
✅HuatuoGPT2_sft_instruct
FreedomIntelligence/Medbase_data
openmedlab/Awesome-Medical-Dataset

獎勵訓練數據

MedicalGPT/reward
Zhongjing/rw
comparison_gpt4_data
HH-RLHF
UltraFeedback

?️全流程訓練

1.安裝依賴

 conda create - n llm python = 3.11
conda activate llm
python - m pip install - r requirements . txt

LLaMA模型下載：https://blog.csdn.net/u014297502/article/details/129829677

 # 转为HF格式
python - m transformers . models . llama . convert_llama_weights_to_hf 
    - - input_dir path_to_llama_weights - - model_size 7 B - - output_dir path_to_llama_model

LLaMA-2模型下載：https://huggingface.co/meta-llama

2.數據配置

資料集配置、PT、SFT、RW資料格式

dataset_info

如果您使用自訂資料集，請務必在dataset_info.json檔案中以下列格式提供您的資料集定義。

 "数据集名称" : {
  "hf_hub_url" : " HuggingFace上的项目地址（若指定，则忽略下列三个参数） " ,
  "script_url" : "包含数据加载脚本的本地文件夹名称（若指定，则忽略下列两个参数） " ,
  "file_name" : "该目录下数据集文件的名称（若上述参数未指定，则此项必需） " ,
  "file_sha1" : "数据集文件的SHA-1哈希值（可选） " ,
  "columns" : {
    "prompt" : "数据集代表提示词的表头名称（默认：instruction） " ,
    "query" : "数据集代表请求的表头名称（默认：input） " ,
    "response" : "数据集代表回答的表头名称（默认：output） " ,
    "history" : "数据集代表历史对话的表头名称（默认：None） "
  }
}

其中prompt和response列應是非空的字串。 query列的內容將會和prompt列拼接作為模型輸入。 history列應為一個列表，其中每個元素是一個字串二元組，分別代表使用者請求和模型答案。

PT example data

.txt格式，一行一個無監督資料。

Machine learning (ML) is a field devoted to understanding and building methods that let machines "learn" – that is, methods that leverage data to improve computer performance on some set of tasks.
Machine learning algorithms build a model based on sample data, known as training data, in order to make predictions or decisions without being explicitly programmed to do so. Machine learning algorithms are used in a wide variety of applications, such as in medicine, email filtering, speech recognition, agriculture, and computer vision, where it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.

SFT example data 1

[
  {
    "instruction" : "听起来很不错。人工智能可能在哪些方面面临挑战呢？ " ,
    "input" : " " ,
    "output" : "人工智能面临的挑战包括数据隐私、安全和道德方面的问题，以及影响就业机会的自动化等问题。 " ,
    "history" : [
      [ "你好，你能帮我解答一个问题吗？ " , "当然，请问有什么问题？ " ],
      [ "我想了解人工智能的未来发展方向，你有什么想法吗？ " , "人工智能在未来的发展方向可能包括更强大的机器学习算法，更先进的自然语言处理技术，以及更加智能的机器人。 " ]
    ]
  }
]

SFT example data 2

[
  {
    "instruction" : "听起来很不错。人工智能可能在哪些方面面临挑战呢？ " ,
    "input" : " " ,
    "output" : "人工智能面临的挑战包括数据隐私、安全和道德方面的问题，以及影响就业机会的自动化等问题。 " ,
    "history" : []
  }
]

RW example data

[
  {
    "instruction" : "生成三个与“道歉”意思相同的动词" ,
    "input" : " " ,
    "output" : [
      "承认，表示遗憾，弥补。 " ,
      "道歉"
    ]
  }
]

3.訓練配置

訓練參數與指令

配置分散式

看看你的顯示卡是否為NVLINK連接，NVLINK連接才能有效使用accelerate進行平行加速訓練。

 nvidia-smi topo -m

 accelerate config # configure the environment
accelerate launch src / train_bash . py # arguments (same as above)

監督訓練

 # LLaMA-2
accelerate launch src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_train 
    - - dataset mm 
    - - finetuning_type lora 
    - - quantization_bit 4 
    - - overwrite_cache 
    - - output_dir output 
    - - per_device_train_batch_size 8 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 1000 
    - - learning_rate 5e-5 
    - - num_train_epochs 2.0 
    - - plot_loss 
    - - fp16 
    - - template llama2 
    - - lora_target q_proj , v_proj

# LLaMA
accelerate launch src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_train 
    - - dataset mm , hm 
    - - finetuning_type lora 
    - - overwrite_cache 
    - - output_dir output - 1 
    - - per_device_train_batch_size 4 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 2000 
    - - learning_rate 5e-5 
    - - num_train_epochs 2.0 
    - - plot_loss 
    - - fp16 
    - - template default 
    - - lora_target q_proj , v_proj

強化學習

 # LLaMA-2, DPO
accelerate launch src / train_bash . py 
    - - stage dpo 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_train 
    - - dataset rlhf 
    - - template llama2 
    - - finetuning_type lora 
    - - quantization_bit 4 
    - - lora_target q_proj , v_proj 
    - - resume_lora_training False 
    - - checkpoint_dir . / output - 2 
    - - output_dir output - dpo 
    - - per_device_train_batch_size 2 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 1000 
    - - learning_rate 1e-5 
    - - num_train_epochs 1.0 
    - - plot_loss 
    - - fp16

4.推理配置

推理參數與指令

Web訪問

 # LLaMA-2
python src / web_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / web_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / web_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

API存取

 # LLaMA-2
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / api_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

測試API：

 curl - X 'POST' 
    'http://127.0.0.1:8888/v1/chat/completions' 
    - H 'accept: application/json' 
    - H 'Content-Type: application/json' 
    - d ' {
    "model" : "string",
    "messages": [
      {
        "role" : "user",
        "content": "你好"
      }
    ],
    " temperature ": 0 ,
    "top_p" : 0 ,
    "max_new_tokens" : 0 ,
    "stream" : false
  }'

CLI訪問

 # LLaMA-2
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

大量預測

 # LLaMA-2
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_predict 
    - - dataset mm 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir predict_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

# LLaMA
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_predict 
    - - dataset mm 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir predict_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

實驗評估(BLEU和ROUGE_CHINESE)

 # LLaMA-2
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_eval 
    - - dataset mm 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir eval_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

# LLaMA
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_eval 
    - - dataset mm 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir eval_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

在4/8-bit評估時，建議使用--per_device_eval_batch_size=1和--max_target_length 128

5.Gradio部署

Gradio部署指令

模型導出

 # LLaMA-2
python src / export_model . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir output_export

# LLaMA
python src / export_model . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir output_export

開啟運行

 % cd Gradio
python app . py

6.ChatGPT-Next-Web部署

Next部署指令

開啟API服務

 # LLaMA-2
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / api_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

下載Next並運行

下載Next：

修改配置：安裝並開啟Next，然後開啟设置，修改接口地址為： http://127.0.0.1:8000/ （即你的API介面位址），然後就可以使用了。

?實務經驗

在CareGPT中並未對分詞模型進行中文分詞的添加和重新訓練，但是效果依舊表現可喜；
全流程的LLM訓練包括：預先訓練、監督微調、獎勵模型、強化學習，多數情況下監督微調即可滿足自身需求；
在算力充足情況下建議使用醫療資料和通用語料資料進行訓練，這樣模型既可以有醫學上的訓練學習，也可以保持通用能力（如指令遵循）；
不要指望一個醫療LLM就可以滿足所有需求，合理的做法可能是即時更新的知識庫+微調的醫療LLM （如ChatLaw）；
BLOOMZ模型系列使用了PILE語料庫進行訓練，該語料庫包含各種醫學文本，包括PubMed Central和PubMed Abstracts等。這些寶貴的文本大大豐富了BLOOMZ模型的醫學知識體系，所以許多開源專案都會優先選擇BLOOMZ做醫學微調的底座模型；
(2023.08.26) ChatGPT基於代碼GPT訓練而來，那我們採用CodeLLaMA在下游任務微調會不會比在LLaMA-1/2上微調取得更好的結果呢？
結合我們最近的工作與最近許多公開發表的工作證明：在LLM時代，數據质量> 数量這個真理，如：Less is More! 上交清源&& 里海| 利用200條數據微調模型，怒超MiniGPT-4 ！，超大規模的SFT資料會讓下游任務LLM減弱或失去ICL、CoT等能力；
對於垂類模型，或許我們更應該關注PT的過程，而不是採集千萬百萬的SFT資料做訓練，我們的建議是大规模预训练+小规模监督微调=超强的LLM模型；
一個好的預訓練醫學LLM尚未在開源社群中被開放出來，期待有人能去補充這樣的工作；
預訓練可以灌入知識，監督微調只是激活領域能力(無法關注知識)？預訓練的知識與監督微調知識應該呼應？預訓練數十GB的語料知識會被原來數萬億token預訓練的模式知識淹沒？
大量資料進行二次預訓練需要配比各類型其他資料：(1)語言模型訓練完成後，參數各區域負責部分已經確定，如果大量增加某類在預訓練時沒有的知識，會造成參數的大幅度變化，造成整個語言模型能力損失; (2)進行大規模數據的二次預訓練，需要添加5-10倍原始預訓練中的數據，並打混後一起訓練;
指令微調階段無法進行過多輪次訓練：(1)針對少量資料進行多個EPOCH的訓練，可能會造成語言關鍵區域變化，從而導致整個模型失效; (2)為了特定任務提升的指令微調，為了確保模型語言能力關鍵區不被大幅度調整，需要加入通用指令微調資料或預訓練資料;
訓練資料要嚴格控制雜訊：(1)預訓練資料中如果出現少量連續的雜訊數據，例如連續重複單字、非單字序列等，都可能造成特定維度的調整，從而使得模型整體PPL大幅度波動; ( 2)有監督微調指令中如果有大量與原有大語言模型不匹配的指令片段，也可能造成模型調整特定維度，從而使得模型整體性能大幅度下降;
大模型混合多種能力資料微調時呈現：高資源衝突，低資源增益，所以混合不同資料微調需要一定的工程技巧；
通常來說，lora與full-tuning有不可忽略的效能差異（如LoRA results in 4-6% lower performance compared to full fine-tuning）；
7B系列模型請優先採用全參數微調方式，13B以上參數模型可使用LoRA，QLoRA等方法；
超大參數模型即使被量化其能力仍能保持的較好；
雖然LLM 訓練（或在GPU 上訓練出的所有模型）有著不可避免的隨機性，但多lun 訓練的結果仍非常一致；
如果受GPU 記憶體的限制，QLoRA 提供了一種高性價比的折衷方案。它以運行時間增長39% 的代價，節省了33% 的記憶體；
在微調LLM 時，優化器的選擇並不是影響結果的主要因素。無論是AdamW、具有調度器scheduler 的SGD ，或是具有scheduler 的AdamW，對結果的影響都微乎其微；
雖然Adam 經常被認為是需要大量記憶體的最佳化器，因為它為每個模型參數引入了兩個新參數，但這並不會顯著影響LLM 的峰值記憶體需求。這是因為大部分記憶體將被分配用於大型矩陣的乘法，而不是用來保留額外的參數；
對於靜態資料集，像多輪訓練中多次迭代可能效果不佳。這通常會導致過擬和，使訓練結果惡化；
如果要結合LoRA，確保它在所有層上應用，而不僅僅是Key 和Value 矩陣中，這樣才能最大限度地提升模型的性能；
調整LoRA rank 和選擇合適的α 值至關重要。提供一個小技巧，試試把α 值設定成rank 值的兩倍；
14GB RAM 的單一GPU 能夠在幾個小時內高效地微調參數規模達70 億的大模型。對於靜態資料集，想要讓LLM 強化成「全能選手」，在所有基線任務中都表現優異是不可能完成的。想要解決這個問題需要多樣化的資料來源，或是使用LoRA 以外的技術；
根據NeurIPS workshop的建議，截止2023年12月18日，微調模型建議選型為英文10B以下选择Mistral-7B中文, 10B以下选择Yi-6B , 10B以上选择Qwen-14B和Yi-34B ；

Important

歡迎大家在ISSUE中補充新的經驗！

11~13方法論來自於130億大語言模型只改變1個權重就會完全喪失語言能力！復旦大學自然語言處理實驗室最新研究.

14方法論來自於How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition

17~25方法論來自LLM Optimization: Layer-wise Optimal Rank Adaptation (LORA) 中文版解讀

?模型開源

階段	權重介紹	下載地址	特點	底座模型	微調方法	數據集
?監督微調	多輪對話資料是基於LLaMA2-7b-Chat訓練而來	CareLlama2-7b-chat-sft-multi、?CareLlama2-7b-multi	優秀的多輪對話能力	LLaMA2-7b-Chat	QLoRA	mm
監督微調	豐富高效醫病對話資料基於LLaMA2-7b-Chat訓練而來	CareLlama2-7b-chat-sft-med	優秀的患者疾病診斷能力	LLaMA2-7b-Chat	QLoRA	hm
監

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2024-12-09
大小 22.13MB
來自於 Github

相關應用

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部