CareGPTダウンロード - CareGPTソースコードのダウンロード

CareGPT

AI ソースコード

1.0.0

ダウンロード

中国語 | 英語

ビデオチュートリアルインストールと展開オンライン体験

⚡特徴:

ChatGPT 微調整実装を追加し、クレジットを持つ友人に ChatGPT で微調整実験を行うよう推奨しました。
ChatGPT-Next-Web 導入微調整モデルをサポートします。
Gradio 導入の微調整モデルをサポートします。
LLaMA および LLaMA-2 フルシリーズモデルトレーニングをサポートします。
その後の PPO および DPO 強化学習トレーニングを含む、LoRA および QLoRA をサポートします。
モデルおよび知識ベースと組み合わせた Q&A をサポートします。
60 以上の病院部門に関するオープンソースの医療指導資料情報。
医療データの GPT-4/ChatGPT モデル蒸留をサポートするツールを開発しました。これは、知識ベースの構築と微調整のためのさまざまなデータをバッチ生成できます。
豊富なオープンソースの医療 LLM、LLM トレーニング用の医療データ、LLM 導入データ、LLM 評価、および関連する LLM リソースコレクションが集約されています。
私たちは医療 LLM の CMB リスト評価 (IvyGPT) に参加しました。このテストでは、ChatGPT や多くのオープンソースの医療 LLM よりも優れていました。
当社は、独自のデータセットに基づいてさまざまなベース LLM でトレーニングされた複数の医療 LLM をオープンソース化しています。これらを直接ダウンロードして体験することができます。

?データセット

トレーニング前のデータ

LLM-Pretrain-FineTune/data_pretrain
MedicalGPT/事前訓練
ザイジ
TCM-Ancient-Books (約 700 の古代中国医学書)
epfl-llm/ガイドライン

教師ありトレーニングデータ

icliniq-10k(ja)
HealthCareMagic-100k(en)
神農_TCM_データセット
✅ChatMed_Consult_Dataset
中医学対話データ
cMedQA2
✅華陀-26M
cMedQA2
webMedQA
PubMedQA
CMCQA
✅QiZhenGPT
✅LLM-Pretrain-FineTune/data_sft
医療対話システム
IMCS-V2
チップ-MDCFNPC
MedDG
✅HuatuoGPT-sft-data-v1
医療GPT/ファインチューン
✅shibing624/医療
メドアルパカ/データ
✅中京/sft
医療ダイアログ
huatuo_encyclopedia_qa
Med-ChatGLM/データ
CMB
GenMedGPT-5k(ja)
アルパカCoT(一般)
✅DISC-Med-SFT
✅HuatuoGPT2_sft_instruct
FreedomIntelligence/Medbase_data
openmedlab/Awesome-Medical-Dataset

報酬トレーニングデータ

医療GPT/報酬
中京/rw
比較_gpt4_データ
HH-RLHF
ウルトラフィードバック

?️フルプロセストレーニング

1. 依存関係をインストールする

 conda create - n llm python = 3.11
conda activate llm
python - m pip install - r requirements . txt

LLaMA モデルのダウンロード: https://blog.csdn.net/u014297502/article/details/129829677

 # 转为HF格式
python - m transformers . models . llama . convert_llama_weights_to_hf 
    - - input_dir path_to_llama_weights - - model_size 7 B - - output_dir path_to_llama_model

LLaMA-2 モデルのダウンロード: https://huggingface.co/meta-llama

2.データ構成

データセット構成、PT、SFT、RWデータフォーマット

データセット情報

カスタムデータセットを使用する場合は、次の形式でdataset_info.jsonファイルにデータセット定義を指定してください。

 "数据集名称" : {
  "hf_hub_url" : " HuggingFace上的项目地址（若指定，则忽略下列三个参数） " ,
  "script_url" : "包含数据加载脚本的本地文件夹名称（若指定，则忽略下列两个参数） " ,
  "file_name" : "该目录下数据集文件的名称（若上述参数未指定，则此项必需） " ,
  "file_sha1" : "数据集文件的SHA-1哈希值（可选） " ,
  "columns" : {
    "prompt" : "数据集代表提示词的表头名称（默认：instruction） " ,
    "query" : "数据集代表请求的表头名称（默认：input） " ,
    "response" : "数据集代表回答的表头名称（默认：output） " ,
    "history" : "数据集代表历史对话的表头名称（默认：None） "
  }
}

prompt列とresponse列は空でない文字列である必要があります。 query列の内容は、モデル入力としてprompt列と連結されます。 history列はリストである必要があり、各要素はそれぞれユーザー要求とモデル応答を表す文字列タプルです。

PTサンプルデータ

.txt形式、1 行に 1 つの教師なしデータ。

Machine learning (ML) is a field devoted to understanding and building methods that let machines "learn" – that is, methods that leverage data to improve computer performance on some set of tasks.
Machine learning algorithms build a model based on sample data, known as training data, in order to make predictions or decisions without being explicitly programmed to do so. Machine learning algorithms are used in a wide variety of applications, such as in medicine, email filtering, speech recognition, agriculture, and computer vision, where it is difficult or unfeasible to develop conventional algorithms to perform the needed tasks.

SFT データ例 1

[
  {
    "instruction" : "听起来很不错。人工智能可能在哪些方面面临挑战呢？ " ,
    "input" : " " ,
    "output" : "人工智能面临的挑战包括数据隐私、安全和道德方面的问题，以及影响就业机会的自动化等问题。 " ,
    "history" : [
      [ "你好，你能帮我解答一个问题吗？ " , "当然，请问有什么问题？ " ],
      [ "我想了解人工智能的未来发展方向，你有什么想法吗？ " , "人工智能在未来的发展方向可能包括更强大的机器学习算法，更先进的自然语言处理技术，以及更加智能的机器人。 " ]
    ]
  }
]

SFTサンプルデータ2

[
  {
    "instruction" : "听起来很不错。人工智能可能在哪些方面面临挑战呢？ " ,
    "input" : " " ,
    "output" : "人工智能面临的挑战包括数据隐私、安全和道德方面的问题，以及影响就业机会的自动化等问题。 " ,
    "history" : []
  }
]

RWサンプルデータ

[
  {
    "instruction" : "生成三个与“道歉”意思相同的动词" ,
    "input" : " " ,
    "output" : [
      "承认，表示遗憾，弥补。 " ,
      "道歉"
    ]
  }
]

3. トレーニング構成

トレーニングパラメータと指示

分散を構成する

グラフィックカードが NVLINK に接続されているかどうかを確認してください。NVLINK 接続がある場合のみ、並列加速トレーニングにaccelerate効果的に使用できます。

 nvidia-smi topo -m

 accelerate config # configure the environment
accelerate launch src / train_bash . py # arguments (same as above)

監督付きトレーニング

 # LLaMA-2
accelerate launch src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_train 
    - - dataset mm 
    - - finetuning_type lora 
    - - quantization_bit 4 
    - - overwrite_cache 
    - - output_dir output 
    - - per_device_train_batch_size 8 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 1000 
    - - learning_rate 5e-5 
    - - num_train_epochs 2.0 
    - - plot_loss 
    - - fp16 
    - - template llama2 
    - - lora_target q_proj , v_proj

# LLaMA
accelerate launch src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_train 
    - - dataset mm , hm 
    - - finetuning_type lora 
    - - overwrite_cache 
    - - output_dir output - 1 
    - - per_device_train_batch_size 4 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 2000 
    - - learning_rate 5e-5 
    - - num_train_epochs 2.0 
    - - plot_loss 
    - - fp16 
    - - template default 
    - - lora_target q_proj , v_proj

強化学習

 # LLaMA-2, DPO
accelerate launch src / train_bash . py 
    - - stage dpo 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_train 
    - - dataset rlhf 
    - - template llama2 
    - - finetuning_type lora 
    - - quantization_bit 4 
    - - lora_target q_proj , v_proj 
    - - resume_lora_training False 
    - - checkpoint_dir . / output - 2 
    - - output_dir output - dpo 
    - - per_device_train_batch_size 2 
    - - gradient_accumulation_steps 4 
    - - lr_scheduler_type cosine 
    - - logging_steps 10 
    - - save_steps 1000 
    - - learning_rate 1e-5 
    - - num_train_epochs 1.0 
    - - plot_loss 
    - - fp16

4. 推論構成

推論パラメータと命令

ウェブアクセス

 # LLaMA-2
python src / web_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / web_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / web_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

APIアクセス

 # LLaMA-2
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / api_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

テストAPI:

 curl - X 'POST' 
    'http://127.0.0.1:8888/v1/chat/completions' 
    - H 'accept: application/json' 
    - H 'Content-Type: application/json' 
    - d ' {
    "model" : "string",
    "messages": [
      {
        "role" : "user",
        "content": "你好"
      }
    ],
    " temperature ": 0 ,
    "top_p" : 0 ,
    "max_new_tokens" : 0 ,
    "stream" : false
  }'

CLI アクセス

 # LLaMA-2
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

# DPO
python src / cli_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output - dpo 
    - - finetuning_type lora 
    - - template llama2

バッチ予測

 # LLaMA-2
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_predict 
    - - dataset mm 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir predict_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

# LLaMA
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_predict 
    - - dataset mm 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir predict_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

実験的評価（BLEUとROUGE_CHINESE）

 # LLaMA-2
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - do_eval 
    - - dataset mm 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir eval_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

# LLaMA
CUDA_VISIBLE_DEVICES = 0 python src / train_bash . py 
    - - stage sft 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - do_eval 
    - - dataset mm 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir eval_output 
    - - per_device_eval_batch_size 8 
    - - max_samples 100 
    - - predict_with_generate

4/8 ビット評価の場合は、 --per_device_eval_batch_size=1および--max_target_length 128を使用することをお勧めします。

5.Gradio展開

Gradio の導入手順

モデルのエクスポート

 # LLaMA-2
python src / export_model . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - template llama2 
    - - finetuning_type lora 
    - - checkpoint_dir output - 1 
    - - output_dir output_export

# LLaMA
python src / export_model . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - template default 
    - - finetuning_type lora 
    - - checkpoint_dir output 
    - - output_dir output_export

走り始める

 % cd Gradio
python app . py

6.ChatGPT-Next-Web の展開

次の展開手順

APIサービスを開始する

 # LLaMA-2
python src / api_demo . py 
    - - model_name_or_path . / Llama - 2 - 7 b - chat - hf 
    - - checkpoint_dir output 
    - - finetuning_type lora 
    - - template llama2

# LLaMA
python src / api_demo . py 
    - - model_name_or_path . / Llama - 7 b - hf 
    - - checkpoint_dir output - 1 
    - - finetuning_type lora 
    - - template default

「次へ」をダウンロードして実行します

次へダウンロード:

構成の変更: [次へ] をインストールして開き、次に设置を開き、接口地址をhttp://127.0.0.1:8000/ (つまり、API インターフェイスアドレス) に変更すると、それを使用できるようになります。

?実務経験

CareGPT では、中国語の単語セグメンテーションは単語セグメンテーションモデルに追加および再トレーニングされませんが、その効果は依然として期待できます。
LLM トレーニングのプロセス全体には、事前トレーニング、教師あり微調整、報酬モデル、強化学習が含まれます。ほとんどの場合、教師あり微調整は独自のニーズを満たすことができます。
コンピューティング能力が十分な場合は、モデルが医療トレーニングと学習だけでなく、一般的な機能 (指示に従うなど) も維持できるように、医療データと一般コーパスデータをトレーニングに使用することをお勧めします。
1 つの医療 LLM ですべてのニーズに対応できるとは期待しないでください。合理的なアプローチは、リアルタイムで更新されるナレッジベースと微調整された医療 LLM (ChatLaw など) です。
BLOOMZ モデルシリーズは、 PubMed CentralやPubMed Abstractsなどのさまざまな医学テキストを含む PILE コーパスを使用してトレーニングされました。これらの貴重なテキストは、BLOOMZ モデルの医療知識システムを大幅に充実させたので、多くのオープンソースプロジェクトは医療微調整のベースモデルとして BLOOMZ を優先することになります。
(2023.08.26) ChatGPT は Code GPT に基づいてトレーニングされています。LLaMA-1/2 での微調整よりも良い結果を得るために、CodeLLaMA を使用して下流タスクを微調整しますか?
私たちの最近の研究と最近出版された多くの研究を組み合わせると、次のように証明されます。LLM 時代では、データの质量> 数量が真実です。Qingyuan&& Caspian に渡され、200 個のデータを使用してモデルを微調整します。ミニGPT-4！、超大規模な SFT データは、ダウンストリームタスクの LLM を弱めるか、ICL、CoT、その他の機能を失います。
垂直モデルの場合、おそらく、トレーニングのために数千万の SFT データを収集するのではなく、PT プロセスにもっと注意を払うべきであると考えられます。私たちの提案は大规模预训练+小规模监督微调=超强的LLM模型です。
優れた事前トレーニング済み医療 LLM はまだオープンソースコミュニティで公開されていないため、誰かがそのような作業を補完できることを願っています。
事前トレーニングでは知識を注入できますが、監視付き微調整ではドメイン機能が活性化されるだけです (知識に焦点を当てることができません)。トレーニング前の知識は、教師付き微調整知識を反映する必要がありますか?数十 GB の事前トレーニングされたコーパスの知識は、何兆ものトークンの元の事前トレーニングされたモデルの知識に圧倒されてしまうのでしょうか?
大量のデータの二次事前トレーニングでは、他のさまざまなタイプのデータを照合する必要があります。 (1) 言語モデルのトレーニングが完了した後、パラメータの各領域の担当部分が決定されている場合、大量の知識。事前トレーニング中に使用できないパラメータが追加されると、振幅の変更により言語モデルの機能全体が失われます。(2) 大規模なデータの二次事前トレーニングの場合は、元のデータの 5 ～ 10 倍になります。事前トレーニングを追加、混合して一緒にトレーニングする必要があります。
命令の微調整フェーズでは、あまりにも多くのラウンドのトレーニングを実行することはできません。(1) 少量のデータで複数の EPOCH をトレーニングすると、言語の主要な領域が変更され、モデル全体の失敗につながる可能性があります。(2) 命令の微調整。 - 特定のタスクを改善するためのチューニング。モデルの言語機能の主要な領域が大幅に調整されないようにするには、一般的な命令の微調整データまたは事前トレーニングデータを追加する必要があります。
トレーニングデータはノイズを厳密に制御する必要があります。(1) 単語の連続的な繰り返しや非単語シーケンスなど、プレトレーニングデータに少量の連続ノイズデータがある場合、特定の次元で調整が発生する可能性があります。モデル全体の PPL が大幅に変動する原因となります。(2) 元の大規模言語モデルと一致しない命令フラグメントが教師あり微調整命令に多数ある場合、モデルが特定の次元を調整する可能性もあります。そのため、モデルの全体的なパフォーマンスが大幅に低下します。
複数の機能の混合データを含む大規模なモデルを微調整すると、リソースの競合が多く、リソースの利得が低いという問題が発生するため、異なるデータを混合して微調整するには特定のエンジニアリングスキルが必要です。
一般に、lora とフルチューニングの間には無視できないパフォーマンスの違いがあります (たとえば、LoRA ではフル微チューニングと比較してパフォーマンスが 4 ～ 6% 低下します)。
7B シリーズモデルのフルパラメータ微調整方法を優先してください。LoRA、QLoRA およびその他の方法は 13B 以上のパラメータモデルに使用できます。
非常に大規模なパラメータモデルが定量化された場合でも、その機能は依然として適切に維持されます。
LLM トレーニング (または GPU でトレーニングされたすべてのモデル) にはランダム性が避けられませんが、複数 LUN トレーニングの結果は依然として非常に一貫しています。
GPU メモリによって制限がある場合、QLoRA はコスト効率の高い妥協点を提供します。実行時間は 39% 増加しますが、メモリは 33% 節約されます。
LLM を微調整する場合、オプティマイザの選択は結果に影響を与える主な要素ではありません。 AdamW、SGD とスケジューラ、または AdamW とスケジューラのいずれであっても、結果への影響は最小限です。
Adam はモデルパラメーターごとに 2 つの新しいパラメーターを導入するため、メモリを大量に使用するオプティマイザーであると考えられますが、これは LLM のピークメモリ要件に大きな影響を与えません。これは、メモリの大部分が追加のパラメータを保持するのではなく、大きな行列の乗算に割り当てられるためです。
静的データセットの場合、複数ラウンドのトレーニングなどの複数回の反復はうまく機能しない可能性があります。これは多くの場合、過剰学習につながり、トレーニング結果が悪化します。
LoRA を組み合わせたい場合は、モデルのパフォーマンスを最大化するために、キーと値のマトリックスだけでなく、すべてのレイヤーに LoRA が適用されていることを確認してください。
LoRA ランクを調整し、適切な α 値を選択することが重要です。ちょっとしたトリックとして、α 値をランク値の 2 倍に設定してみてください。
14 GB RAM を搭載した単一の GPU を使用すると、70 億のパラメーターを持つ大規模なモデルを数時間で効率的に微調整できます。静的データセットの場合、LLM を「万能型」に強化し、すべてのベースラインタスクで良好なパフォーマンスを発揮することは不可能です。この問題を解決するには、データソースを多様化するか、LoRA 以外のテクノロジーを使用する必要があります。
NeurIPS ワークショップの推奨事項によると、2023 年 12 月 18 日の時点で、微調整モデルの推奨選択は、英文10B以下选择Mistral-7B中文、10B 10B以下选择Yi-6B 、 10B以上选择Qwen-14B和Yi-34Bです。 10B以上选择Qwen-14B和Yi-34B 。

重要

誰でも ISSUE に新しい体験を追加することを歓迎します。

11~13 方法論は 130 億の大きな言語モデルから来ています。たった 1 つの重みを変えるだけで、言語能力は完全に失われます。復旦大学自然言語処理研究室による最新の研究。

14大規模言語モデルの能力が教師ありデータ構成の微調整によってどのような影響を受けるかに基づく方法論

17 ～ 25 の方法論は、LLM 最適化: Layer-wise Optimal Rank Adaptation (LORA) 中国語版の解釈に由来しています。

?モデルオープンソース

ステージ	重みの紹介	ダウンロードアドレス	特徴	ベースモデル	微調整方法	データセット
?監視と微調整	マルチターン対話データは LLaMA2-7b-Chat に基づいてトレーニングされています	CareLlama2-7b-chat-sft-multi、?CareLlama2-7b-multi	優れたマルチターン会話スキル	LLaMA2-7b-チャット	QLoRA	mm
微調整を監督する	豊富で効率的な医師と患者の対話データは、LLaMA2-7b-Chat に基づいてトレーニングされています	CareLlama2-7b-chat-sft-med	優れた患者の疾患診断能力	LLaMA2-7b-チャット	QLoRA	うーん
監督する

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2024-12-09
サイズ 22.13MB
から Github