zero_nlp
1.0.0
目标
: pytorch
とtransformers
に基づいて、中国語分野の NLP 用のすぐに使用できるトレーニング フレームワークを作成し、モデルのトレーニングと微調整のための完全なソリューション セットを提供します (大規模なモデル、テキスト ステアリング ベクトル、テキスト生成を含む) 、マルチモーダルおよびその他のモデル)。数据
:百GB
のデータでも簡単に処理できます。流程
: 各プロジェクトには、データ クリーニング、データ処理、モデル構築、モデル トレーニング、モデル デプロイメント、モデルの図解などの完全なモデル トレーニング ステップがあります。模型
: 現在、 gpt2
、 clip
、 gpt-neox
、 dolly
、 llama
、 chatglm-6b
、 VisionEncoderDecoderModel
などのマルチモーダル大規模モデルをサポートしています。多卡串联
: 現在、ほとんどの大規模モデルのサイズは、単一のコンシューマ グレードのグラフィックス カードのビデオ メモリよりもはるかに大きく、大規模なモデルをトレーニングして展開するには、複数のグラフィックス カードを直列に接続する必要があります。したがって、训练时
および推理时
中にマルチカード シリーズ機能を実現するために、一部のモデル構造が変更されました。模型工具
: 大規模モデル用の词表裁切
と词表扩充
チュートリアルを追加しました。 中国語名 | フォルダ名 | データ | データクリーニング | 大型モデル | モデルの展開 | 図 |
---|---|---|---|---|---|---|
中国語テキストの分類 | 中国語分類子 | ✅ | ✅ | ✅ | ✅ | |
中国語gpt2 | 中国語_gpt2 | ✅ | ✅ | ✅ | ✅ | |
中国のclip | 中国語クリップ | ✅ | ✅ | ✅ | ✅ | |
画像生成中国語テキスト | ビジョンエンコーダデコーダモデル | ✅ | ✅ | ✅ | ✅ | |
vit コア ソース コードの紹介 | ビタミンモデル | ✅ | ||||
Thu-ChatGlm-6b ( v1 バージョンは廃止されました) | simple_thu_chatglm6b | ✅ | ✅ | ✅ | ✅ | |
?chatglm- v2 ? | chatglm_v2_6b_lora | ✅ | ✅ | ✅ | ||
中国のdolly_v2_3b | ドリー_v2_3b | ✅ | ✅ | ✅ | ||
中国のllama (廃止) | 中国人ラマ | ✅ | ✅ | ✅ | ||
中国のbloom | チャイナブルーム | ✅ | ✅ | ✅ | ||
中国のfalcon (注: ハヤブサのモデルはブルームの構造に似ています) | チャイナブルーム | ✅ | ✅ | ✅ | ||
中国語の事前トレーニングコード | モデル_clm | ✅ | ✅ | ✅ | ||
百川の大型模型 | モデル白川 | ✅ | ✅ | ✅ | ✅ | |
モデルトリミング✂️ | モデル変更 | ✅ | ✅ | ✅ | ||
llama2 パイプラインの並列処理 | パイプライン | ✅ | ✅ | ✅ | ||
Baichuan 2-7b-chat のdpo | DPO baichuan2-7b-chat | ✅ | ✅ | ✅ | ||
トレーニング中にデータの割合が変化する | train_data_sample | ✅ | ✅ | ✅ | ||
内部LM-ベースSFT | インターンLM-SFT | ✅ | ✅ | ✅ | ||
列車クウェン2 | train_qwen2 | ✅ | ✅ | ✅ | ✅ | |
列車ラヴァ | train_llava | ✅ | ✅ | ✅ | ✅ | ✅ |
データの流れは図の形で最も明確に表現できると常々感じているので、すべてのタスクを図で表現できるように最善を尽くします。
私はトランスフォーマーのソースコード解釈を行っています。ステーション B に行くと、Liangmulu Programmer のビデオが表示されます。