zero_nlp
1.0.0
目标
: Crear un marco de capacitación listo para usar para PNL en el campo chino basado en pytorch
y transformers
, y proporcionar un conjunto completo de soluciones para capacitación y ajuste de modelos (incluidos modelos grandes, vectores de dirección de texto, generación de texto). , multimodales y otros modelos);数据
:百GB
de datos;流程
: Cada proyecto tiene pasos completos de capacitación de modelos, como: limpieza de datos, procesamiento de datos, construcción de modelos, capacitación de modelos, implementación de modelos e ilustración de modelos;模型
: actualmente admite modelos grandes multimodales como gpt2
, clip
, gpt-neox
, dolly
, llama
, chatglm-6b
, VisionEncoderDecoderModel
, etc.;多卡串联
: actualmente, el tamaño de la mayoría de los modelos grandes es mucho mayor que la memoria de video de una sola tarjeta gráfica de consumo. Es necesario conectar varias tarjetas gráficas en serie para entrenar e implementar modelos grandes. Por lo tanto, se modificaron algunas estructuras del modelo para realizar la función de serie de tarjetas múltiples训练时
y推理时
.模型工具
: Se agregó un tutorial词表裁切
y词表扩充
para modelos grandes model_modify nombre chino | nombre de la carpeta | datos | Limpieza de datos | modelo grande | Implementación del modelo | Ilustración |
---|---|---|---|---|---|---|
clasificación de texto chino | clasificador_chino | ✅ | ✅ | ✅ | ✅ | |
gpt2 chino | chino_gpt2 | ✅ | ✅ | ✅ | ✅ | |
clip chino | clip_chino | ✅ | ✅ | ✅ | ✅ | |
Texto chino de generación de imágenes. | VisionCodificadorDecodificadorModelo | ✅ | ✅ | ✅ | ✅ | |
Introducción al código fuente principal de vit | modelo vit | ✅ | ||||
Thu-ChatGlm-6b (la versión v1 está obsoleta) | simple_thu_chatglm6b | ✅ | ✅ | ✅ | ✅ | |
?chatglm- v2 ? | chatglm_v2_6b_lora | ✅ | ✅ | ✅ | ||
muñeca dolly_v2_3b | muñeca_v2_3b | ✅ | ✅ | ✅ | ||
llama china (obsoleta) | llama_china | ✅ | ✅ | ✅ | ||
bloom china | flor_china | ✅ | ✅ | ✅ | ||
falcon chino (nota: el modelo de halcón es similar a la estructura de floración) | flor_china | ✅ | ✅ | ✅ | ||
Código chino de preentrenamiento | modelo_clm | ✅ | ✅ | ✅ | ||
Modelo grande de Baichuan | modelo_baichuan | ✅ | ✅ | ✅ | ✅ | |
Recorte de modelo✂️ | modelo_modificar | ✅ | ✅ | ✅ | ||
paralelismo de canalización llama2 | tubería | ✅ | ✅ | ✅ | ||
dpo de Baichuan 2-7b-chat | DPO baichuan2-7b-chat | ✅ | ✅ | ✅ | ||
Durante el entrenamiento, la proporción de datos cambia. | muestra_datos_tren | ✅ | ✅ | ✅ | ||
sft de base interna | internolm-sft | ✅ | ✅ | ✅ | ||
tren qwen2 | tren_qwen2 | ✅ | ✅ | ✅ | ✅ | |
tren llava | tren_llava | ✅ | ✅ | ✅ | ✅ | ✅ |
Siempre he sentido que el flujo de datos se expresa más claramente en forma de diagramas, por lo que haré todo lo posible para diagramar cada tarea.
He estado interpretando el código fuente de los transformadores. Puedes ir a la estación B para ver el video del programador Liangmulu.