Загрузка zero_nlp - Загрузка исходного кода zero

zero_nlp

AI Исходный код

1.0.0

Скачать

от нуля до НЛП

Функции

目标: Сделать готовый фреймворк для обучения НЛП в китайской сфере на основе pytorch и transformers , а также предоставить полный набор решений для обучения и тонкой настройки моделей (включая большие модели, векторы управления текстом, генерацию текста). , мультимодальные и другие модели);
?数据:
- Мы собрали обширные данные обучения от сообщества открытого исходного кода, чтобы помочь пользователям быстро приступить к работе;
- В то же время также открываются шаблоны обучающих данных, которые позволяют быстро обрабатывать данные вертикального поля;
- В сочетании с более эффективными методами обработки данных, такими как многопоточность и сопоставление памяти, можно легко обрабатывать даже百GB данных;
流程: Каждый проект включает в себя полные этапы обучения модели, такие как: очистка данных, обработка данных, построение модели, обучение модели, развертывание модели и иллюстрация модели;
模型: в настоящее время поддерживаются мультимодальные большие модели, такие как gpt2 , clip , gpt-neox , dolly , llama , chatglm-6b , VisionEncoderDecoderModel и т. д.;
多卡串联. В настоящее время размер большинства крупных моделей намного больше, чем видеопамять одной видеокарты потребительского уровня. Для обучения и развертывания больших моделей необходимо последовательно подключать несколько видеокарт. Поэтому некоторые структуры модели были изменены для реализации функции серии из нескольких карт训练时и推理时.
模型工具: добавлено руководство词表裁切и词表扩充запаса для больших моделей model_modify.

Китайское имя	имя папки	данные	Очистка данных	большая модель	Развертывание модели	Иллюстрация
Классификация китайских текстов	китайский_классификатор	✅	✅	✅		✅
Китайский `gpt2`	китайский_gpt2	✅	✅	✅	✅
Китайский `clip`	китайский_клип	✅	✅	✅		✅
Генерация изображений Текст на китайском языке	VisionEncoderDecoderModel	✅	✅	✅		✅
Введение в исходный код ядра vit	вит модель					✅
`Thu-ChatGlm-6b` (версия `v1` устарела)	simple_thu_chatglm6b	✅	✅	✅	✅
?chatglm- `v2` ?	чатglm_v2_6b_lora	✅	✅	✅
Китайская `dolly_v2_3b`	Долли_v2_3b	✅	✅	✅
Китайская `llama` (устарело)	китайская_лама	✅	✅	✅
Китайский `bloom`	китайский_цветок	✅	✅	✅
Китайский `falcon` (примечание: модель сокола аналогична структуре цветка)	китайский_цветок	✅	✅	✅
Китайский код предварительного обучения	model_clm	✅	✅	✅
Большая модель Байчуаня	model_baichuan	✅	✅	✅	✅
Обрезка модели✂️	model_modify	✅	✅	✅
параллелизм конвейеров llama2	трубопровод	✅	✅	✅
`dpo` Байчуань 2-7b-чат	ДПО байчуань2-7b-чат	✅	✅	✅
Во время обучения доля данных меняется	train_data_sample	✅	✅	✅
внутренняя база SFT	интернлм-сфт	✅	✅	✅
поезд qwen2	train_qwen2	✅	✅	✅	✅
поезд ллава	поезд_ллава	✅	✅	✅	✅	✅