zero_nlp
1.0.0
目标
: Criar uma estrutura de treinamento pronta para uso para PNL no campo chinês com base em pytorch
e transformers
e fornecer um conjunto completo de soluções para modelos de treinamento e ajuste fino (incluindo modelos grandes, vetores de orientação de texto, geração de texto , multimodais e outros modelos);数据
:百GB
de dados;流程
: Cada projeto possui etapas completas de treinamento de modelo, como: limpeza de dados, processamento de dados, construção de modelo, treinamento de modelo, implantação de modelo e ilustração de modelo;模型
: atualmente suporta grandes modelos multimodais, como gpt2
, clip
, gpt-neox
, dolly
, llama
, chatglm-6b
, VisionEncoderDecoderModel
, etc.;多卡串联
: Atualmente, o tamanho da maioria dos modelos grandes é muito maior do que a memória de vídeo de uma única placa gráfica de consumo. Várias placas gráficas precisam ser conectadas em série para treinar e implantar modelos grandes. Portanto, algumas estruturas do modelo foram modificadas para realizar a função da série multicartões训练时
e推理时
.模型工具
: Adicionado tutorial词表裁切
e词表扩充
para modelos grandes model_modify Nome chinês | nome da pasta | dados | Limpeza de dados | modelo grande | Implantação de modelo | Ilustração |
---|---|---|---|---|---|---|
Classificação de texto chinês | classificador_chinês | ✅ | ✅ | ✅ | ✅ | |
gpt2 chinês | chinês_gpt2 | ✅ | ✅ | ✅ | ✅ | |
clip chinês | clipe_chinês | ✅ | ✅ | ✅ | ✅ | |
Geração de imagem Texto chinês | VisionEncoderDecoderModel | ✅ | ✅ | ✅ | ✅ | |
Introdução ao código-fonte do núcleo vit | modelo de vitamina | ✅ | ||||
Thu-ChatGlm-6b (versão v1 está obsoleta) | simple_thu_chatglm6b | ✅ | ✅ | ✅ | ✅ | |
?chatglm- v2 ? | chatglm_v2_6b_lora | ✅ | ✅ | ✅ | ||
dolly_v2_3b | boneca_v2_3b | ✅ | ✅ | ✅ | ||
llama chinesa (obsoleto) | lhama_chinesa | ✅ | ✅ | ✅ | ||
bloom chinesa | flor_chinesa | ✅ | ✅ | ✅ | ||
falcon chinês (nota: o modelo do falcão é semelhante à estrutura do florescimento) | flor_chinesa | ✅ | ✅ | ✅ | ||
Código de pré-treinamento chinês | modelo_clm | ✅ | ✅ | ✅ | ||
Grande modelo de Baichuan | modelo_baichuan | ✅ | ✅ | ✅ | ✅ | |
Corte de modelo✂️ | modelo_modificar | ✅ | ✅ | ✅ | ||
paralelismo de pipeline llama2 | gasoduto | ✅ | ✅ | ✅ | ||
dpo de Baichuan 2-7b-chat | DPO baichuan2-7b-chat | ✅ | ✅ | ✅ | ||
Durante o treinamento, a proporção de dados muda | train_data_sample | ✅ | ✅ | ✅ | ||
internolm-base sft | estagiário-sft | ✅ | ✅ | ✅ | ||
treinar qwen2 | trem_qwen2 | ✅ | ✅ | ✅ | ✅ | |
trem lhava | trem_llava | ✅ | ✅ | ✅ | ✅ | ✅ |
Sempre achei que o fluxo de dados é expresso mais claramente na forma de diagramas, por isso tentarei o meu melhor para diagramar cada tarefa.
Tenho feito interpretação de código-fonte de transformadores. Você pode ir à estação B para ver o vídeo do programador Liangmulu.