Загрузка Firefly - Загрузка исходного кода Firefly

Firefly: универсальный инструмент для обучения крупным моделям

Добро пожаловать в группу обмена технологиями крупных моделей Firefly. Подпишитесь на нашу официальную учетную запись и нажмите кнопку «Присоединиться к группе».

Приглашаем вас подписаться на нашу Zhihu для общения и обсуждения: «Льет красный дождь»

Введение в проект

Firefly — это проект обучения крупным моделям с открытым исходным кодом, который поддерживает предварительное обучение, точную настройку инструкций и DPO для основных крупных моделей, включая, помимо прочего, Qwen2, Yi-1.5, Llama3, Gemma, Qwen1.5, MiniCPM, MiniCPM3, Lla. ma, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral-8x7B, Zephyr, Vicuna, Bloom и др. Этот проект поддерживает полное обучение параметров, эффективное обучение LoRA, QLoRA , а также предварительное обучение, SFT и DPO . Если ваши ресурсы обучения ограничены, мы настоятельно рекомендуем использовать QLoRA для тонкой настройки инструкций, поскольку мы проверили эффективность этого метода на Open LLM Leaderboard и добились очень хороших результатов.

?Основное содержание этого проекта заключается в следующем:

Поддерживает предварительное обучение, точную настройку инструкций, DPO, полное обучение параметров, эффективное обучение LoRA и QLoRA. Обучая различные модели с помощью файлов конфигурации, новички могут быстро приступить к обучению моделей.
? Поддержка использования Unsloth для ускорения обучения и экономии видеопамяти.
? Поддержка большинства популярных крупных моделей с открытым исходным кодом, таких как Llama3, Gemma, MiniCPM, Llama, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral-8x7B, Zephyr, Vicuna, Bloom, Dur. обучение, оно соответствует шаблону каждой официальной модели чата.
? Организовать и открыть исходные наборы данных для точной настройки инструкций: firefly-train-1.1M, moss-003-sft-data, ultrachat, WizardLM_evol_instruct_V2_143k, school_math_0.25M.
? Серия инструкций Firefly с открытым исходным кодом для точной настройки веса модели.
? Эффективность учебного процесса QLoRA была проверена в таблице лидеров Open LLM.

Текущая версия адаптирована под шаблоны разных моделей чатов, а также имеются серьезные обновления кода. Если вы предпочитаете предыдущую версию, вы можете скачать код v0.0.1-alpha.

Новости

PR структуры модели Unsloth x Qwen2 был объединен с основной веткой Unsloth.
Расширенный Unsloth для поддержки структуры модели Qwen2, включая модели Dense серии Qwen1.5, кодовая база: Unsloth. Технические статьи
При поддержке Unsloth для обучения Llama3-8B требуется всего 7,75 ГБ видеопамяти, что позволяет сократить использование видеопамяти на 42,58 % и время обучения на 30,72 %. Обзор результатов обучения.
Оптимизируйте процесс обучения, поддерживайте полное обучение, эффективное обучение LoRA, QLoRA, поддерживайте предварительное обучение, тонкую настройку инструкций и DPO. Точная настройка инструкций и шаблон DPO приведены в соответствие с исходной моделью чата и поддерживают большинство моделей с открытым исходным кодом, включая Gemma, MiniCPM, Llama, InternLM, Baichuan, ChatGLM, Yi, Deepseek, Qwen, Orion, Ziya, Xverse, Mistral, Mixtral. - 8x7B, Зефир, Викунья, Блум и т.д.
Модель с открытым исходным кодом firefly-mixtral-8x7b имеет оценку 70,34 в рейтинге Open LLM, превосходя такие модели, как Yi-34B, Llama2-65B-Chat, Qwen-14B и Vicuna-33B-v1.3.
LongQLoRA с открытым исходным кодом, [Технический отчет]. Он может эффективно расширить длину контекста LLama, увеличив длину Llama2 до 8 КБ (а также до 12 КБ) на одном V100 емкостью 32 ГБ, используя всего 1000 шагов тонкой настройки. Недоумение в наборах данных PG19 и Proof-pile лучше, чем LongLoRA. , а на ПГ19 Чуть лучше, чем МПТ-7Б-8К.
Проект Firefly-LLaMA2-Chinese с открытым исходным кодом эффективно обучается на 4*V100 . После расширения китайского словарного запаса, поэтапного предварительного обучения и нескольких раундов точной настройки инструкций он превосходит Linly, Yayi, FlagAlpha и т. д. по CMMLU и. находится на одном уровне с Зией, производительность китайской альпаки практически не изменилась.
Firefly-baichuan2-13b с открытым исходным кодом занимает 8-е место в списке CMMLU OpenCompass с оценкой 56,83, что немного ниже официальной модели Chat Baichuan на 1,57 балла.
Светлячок-лама-30b с открытым исходным кодом занимает 10-е место среди моделей такого же масштаба с оценкой 64,83 в рейтинге Open LLM.
Firefly-llama2-13b с открытым исходным кодом занимает третье место среди моделей такого же размера с 62 баллами в рейтинге Open LLM, что чуть на 0,5 балла ниже, чем у лидирующего.
Firefly-llama-13b с открытым исходным кодом является точной копией Vicuna-13B в рейтинге Open LLM Hugging Face, который немного выше, чем Vicuna-13b-1.1, на 0,2 балла и немного ниже, чем llams-2-13b-chat, на 0,5 балла.
LLMPruner: большой инструмент обрезки языковой модели, с открытым исходным кодом обрезанные веса модели Блума.

Связанные проекты

Firefly-LLaMA2-Chinese: китайская модель Llama2, которая выполняет расширение китайского словарного запаса, поэтапное предварительное обучение и точную настройку инструкций на Llama2.
LongQLoRA: проект расширения длины большой модели, который может увеличить длину LLaMA-13B до 8192 на одной карте V100, а производительность близка к MPT-8K.
LLMPruner: сократите словарь Блума, чтобы уменьшить количество параметров модели.

Блог о технологиях

Блог о технологиях

Unsloth x Qwen2, ускорение на 47,32%, экономия 39,13% видеопамяти, требуется не менее 8,43 ГБ видеопамяти
Unsloth дорабатывает Llama3-8B, ускоряя работу на 44,35%, экономя 42,58% видеопамяти, требуя не менее 7,75 ГБ видеопамяти
Сравнительный эксперимент между психическим разочарованием и сильным базовым уровнем: разрыв очевиден.
Некоторые вопросы и предположения о данных бара для умственно отсталых, дарованных Богом, а также эксперименты по проверке данных
Графическая иллюстрация KV Cache для оптимизации вывода больших моделей
Практика доводки крупной модели Mixtral-8x7B MoE, превосходящая Llama2-65B
LongQLoRA: одна карта эффективно увеличивает длину контекста LLaMA2-13B.
Подробное объяснение метода экстраполяции модели большой длины, основанного на настройке угла поворота RoPE.
Иллюстрация кодирования вращательного положения RoPE и его характеристики
Легкое решение для поэтапного предварительного обучения QLoRA и практика локализации Llama2.
Ученый по тонкой настройке многораундового диалога Firefly, практика Пую InternLM-7B
?Firefly доработал LLaMA-30B, заняв 10-е место в той же категории в списке Open LLM.
Насколько эффективен Тонги Qwen-7B? Практика тонкой настройки Firefly с отличными результатами
Анализ исходного кода недостатков метода обучения многораундному диалогу ChatGLM2 и методов улучшения
Firefly расширяет возможности многораундового диалога Baichuan-13B
?Открытый рейтинг LLM, firefly-llama2-13b занимает третье место среди всех моделей 13B, немного отставая от первого места на 0,5 балла.
Миллионы данных расширяют возможности многораундового диалога Baichuan-13B
Одиночная карта Firefly с повторной гравировкой Vicuna-13B, открытый список LLM Чуть выше на 0,2 балла?
Учебное пособие по точной настройке Baichuan-13B в стиле няни, которое шаг за шагом научит вас обучать десятки миллиардов крупных моделей.
Firefly-Ziya-13B имеет открытый исходный код, QLoRA+ миллионы данных, а одна карта может обучать десятки миллиардов крупных моделей.
Фактическое измерение Firefly｜Baichuan baichuan-7B, точная настройка данных миллиона команд QLoRA+
Firefly | QLoRA+ миллион данных, эффективная точная настройка модели Bloom-7b1 для нескольких карт
Интерпретация статей QLoRA и эффективная точная настройка одной карты Bloom-7b1
Firefly: модель китайского разговорного большого языка
LLMPruner: инструмент для настройки большой языковой модели.

Оценка модели

Открытый обзор таблицы лидеров LLM

Результаты оценки взяты из таблицы лидеров Open LLM компании Hugging Face. Наши модели обучаются с использованием сценариев QLoRA, при этом для обучения используются только 1–2 V100.

Модель	Средний	АРК	HellaSwag	ММЛУ	ПравдивыйQA
светлячок-микстраль-8x7b	70.16	68.09	85,76	71,49	55.31
Yi-34B-Чат	69,97	65,44	84,16	74,9	55,37
Светлячок-лама-30b	64,83	64,25	83,64	58,23	53,2
falcon-40b-инструктировать	63,47	61,6	84,31	55,45	52,52
гуанако-33б	62,98	62,46	84,48	53,78	51,22
светлячок-лама2-13b-v1.2	62,17	60,67	80,46	56,51	51.03
светлячок-лама2-13b	62.04	59.13	81,99	55,49	51,57
викунья-13b-v1.5	61,63	56,57	81,24	56,67	51,51
mpt-30b-чат	61,21	58,7	82,54	51,16	52,42
Wizardlm-13b-v1.2	60,79	59.04	82,21	54,64	47,27
викунья-13b-v1.3	60.01	54,61	80,41	52,88	52.14
лама-2-13b-чат	59,93	59.04	81,94	54,64	44.12
викунья-13b-v1.1	59,21	52,73	80.14	51,9	52.08
гуанако-13b	59,18	57,85	83,84	48,28	46,73

Список моделей

? Используя обучающий код этого проекта и приведенные выше данные обучения, мы обучили и открыли исходный код следующих весов модели.

Китайская модель:

Модель	базовая модель	продолжительность тренировки
светлячок-baichuan2-13b	baichuan-inc/Baichuan2-13B-Base	1024
светлячок-baichuan-13b	baichuan-inc/Baichuan-13B-Base	1024
светлячок-qwen-7b	Квен/Квен-7B	1024
светлячок-chatglm2-6b	THUDM/chatglm2-6b	1024
светлячок-internlm-7b	стажер/стажер-7b	1024
светлячок-baichuan-7b	Байчуань-Инк/Байчуань-7B	1024
Светлячок-зия-13b	YeungNLP/Ziya-LLaMA-13B-Pretrain-v1	1024
светлячок-цветение-7b1	bigscience/блум-7b1	1024
светлячок-цветение-2b6-v2	YeungNLP/bloom-2b6-zh	512
светлячок-цветение-2b6	YeungNLP/bloom-2b6-zh	512
светлячок-цветение-1b4	YeungNLP/bloom-1b4-zh	512

Английская модель:

Модель	базовая модель	продолжительность тренировки
светлячок-микстраль-8x7b	мистралай/Mixtral-8x7B-v0.1	1024
светлячок-лама-30b	хугиллама/лама-30b	1024
светлячок-лама-13-v1.2	NousResearch/Llama-2-13b-hf	1024
светлячок-лама2-13b	NousResearch/Llama-2-13b-hf	1024
светлячок-лама-13b-v1.2	хугиллама/лама-13b	1024
светлячок-лама-13b	хугиллама/лама-13b	1024

данные обучения

данные команды обрезки

? В настоящее время этот проект в основном организует следующие наборы данных инструкций и объединяет их в единый формат данных:

Набор данных	представлять
светлячок-поезд-1.1М	Мы собрали данные по 23 распространенным китайским задачам НЛП и построили множество данных, связанных с китайской культурой, таких как куплеты, поэзия, классический китайский перевод, проза, романы Цзинь Юна и т. д. Для каждой задачи вручную пишется несколько шаблонов инструкций, чтобы обеспечить высокое качество и насыщенность данных. Объем данных — 1,15 миллиона.
мосс-003-sft-данные	Данные многораундового диалога на китайском и английском языках, открытые командой MOSS Фуданьского университета, содержат более 1 миллиона данных.
ультрачат	Данные о многооборотных разговорах на английском языке из открытых источников Университета Цинхуа, содержащие более 1,4 миллиона данных.
WizardLM_evol_instruct_V2_143k	Набор данных для точной настройки инструкций на английском языке, открытый в рамках проекта WizardLM, использует метод Evol-Instruct для развития инструкций и повышения сложности инструкций, чтобы улучшить способность модели следовать сложным инструкциям. Содержит 143 тыс. фрагментов данных.
school_math_0.25M	Данные инструкций по математическим операциям, полученные командой проекта BELLE с открытым исходным кодом, содержат 250 000 фрагментов данных.
поделитьсяAI/CodeChat	В основном он включает образцы корпуса, связанные с логическими рассуждениями, вопросами и ответами по коду, а также генерацией кода.
поделитьсяAI/ShareGPT-китайский-английский-90k	Параллельный двуязычный набор высококачественных человеко-машинных вопросов и ответов на китайском и английском языках, охватывающий вопросы пользователей в реальных сложных сценариях.
ультрачат_200к	Данные тонкой настройки английской команды с открытым исходным кодом проекта Zephyr очищаются на основе данных ультрачата.
ultrafeedback_binarized	Набор данных о предпочтениях английского языка, можно использовать для обучения DPO.

Вышеуказанные данные могут быть выбраны, взяты из выборки или объединены по мере необходимости. Если вы тренируете китайскую модель, рекомендуется попробовать использовать данные Мосса. На английском языке можно попробовать данные Ultrachat и WizardLM.

Данные обучения представлены в формате jsonl. Формат данных каждой строки является обязательным. Другие поля можно добавлять или удалять в соответствии с фактическими потребностями. Вы можете обратиться к файлу data/dummy_data.jsonl в проекте.

{
    "conversation_id" : 44 ,
    "category" : " Brainstorming " ,
    "conversation" :[
        {
            "human" : "怎么能够有效地提升个人能力？ " ,
            "assistant" : "提升个人能力可以通过以下几个方面实现： nn 1. 学习新知识和技能：阅读相关书籍、参加课程和工作坊、观看教育视频等学习方式，可以帮助你掌握新的知识和技能，从而提升个人能力。 nn 2. 持续练习和实践：不断地练习和实践所学的知识和技能，可以帮助你更好地掌握和应用这些技能，提高你的表现和效率。 nn 3. 寻求反馈和改进：寻求他人的反馈和建议可以帮助你发现自己的不足之处，进一步完善和改进自己的能力。 nn 4. 建立良好的工作和生活习惯：建立良好的工作和生活习惯，如合理安排时间、注意健康、保持积极态度等，可以提高你的工作效率和生活品质，从而提升个人能力。 nn 5. 社交和交流：与他人交流和合作，可以帮助你更好地了解他人的观点和经验，从而提升自己的能力和见识。 "
        },
        {
            "human" : "对于初学者来说，如何快速掌握编程技能？ " ,
            "assistant":"以下是几个建议，可以帮助初学者快速掌握编程技能：nn1. 学习基础知识：建议先学习编程语言的基础知识和语法，例如变量、数据类型、控制结构、函数等。可以通过在线课程、编程书籍、视频教程等方式学习。nn2. 实践编程：进行实际的编程练习是非常重要的，可以通过参加编程挑战、编写小项目等方式来进行实践。nn3. 寻求反馈：可以寻求他人的反馈和建议，例如在线编程社区、编程导师等，他们可以帮助你发现问题并及时纠正。nn4. 阅读优秀代码：阅读和分析优秀的代码可以帮助你学习其他程序员的编程思路和技巧，从而提高自己的编程能力。nn5. 不断学习和更新：编程技术和工具在不断更新和发展，因此需要不断学习新的知识和技能，例如学习新的编程语言、框架、工具等，以跟上技术的发展和变化。nn总之，学习编程需要耐心和坚持，并且需要不断地实践和学习。通过以上建议，可以帮助初学者快速掌握编程技能。"
        },
        {
            "human" : "除了参加编程挑战和阅读代码，还有哪些方式可以提升自己的编程能力呢？ " ,
            "assistant":"除了参加编程挑战和阅读代码，还有以下几种方式可以提升自己的编程能力：nn1. 参与开源项目：加入一个开源项目，可以让你了解到实际的软件开发流程和团队合作方式，并且可以与其他开发人员合作，学习和分享编程技巧和经验。nn2. 进行代码重构：对已经编写的代码进行重构，可以帮助你了解更好的编程实践和设计模式，从而提高代码的可读性和可维护性。nn3. 练习算法和数据结构：算法和数据结构是编程中的重要基础，练习算法和数据结构可以帮助你了解不同的数据结构和算法，从而更好地解决实际问题。nn4. 学习软件工程和架构：学习软件工程和架构的知识，可以帮助你了解如何设计和构建可靠、可扩展和可维护的软件系统。nn5. 参加编程社区和论坛：参加编程社区和论坛可以让你与其他开发人员分享和讨论编程经验和技巧，了解最新的技术趋势和解决方案。nn总之，提升编程能力需要不断地学习和实践，并与其他开发人员和编程专家进行交流和合作，以获取更多的经验和知识。"
        },
        {
            "human" : "你有没有推荐的编程挑战网站？ " ,
            "assistant":"当然，以下是一些值得推荐的编程挑战网站：nn1. HackerRank：HackerRank 是一个全球领先的技术招聘平台，提供数百种编程挑战和比赛，包括算法、数据结构、数学、SQL、AI 等多个技术领域。nn2. LeetCode：LeetCode 是一个在线编程学习和实践平台，提供数千道编程题目，主要涵盖算法和数据结构。nn3. Codeforces：Codeforces 是一个全球知名的编程竞赛网站，提供数百个比赛和练习题目，主要涵盖算法和数据结构。nn4. Codewars：Codewars 是一个在线编程学习和实践平台，提供数千道编程题目，主要涵盖算法、数据结构、面向对象编程等多个技术领域。nn5. Project Euler：Project Euler 是一个非营利性的在线编程挑战平台，提供一系列数学和计算机科学问题，需要用编程语言进行解答。nn以上这些编程挑战网站可以帮助你提高编程能力，并且可以与其他编程爱好者进行交流和竞争。"
        },
        {
            "human" : "在学习编程的过程中，如何避免陷入困境和放弃呢？ " ,
            "assistant":"学习编程是一个需要长期坚持和不断学习的过程，以下是一些避免陷入困境和放弃的方法：nn1. 制定合理的学习计划：制定合理的学习计划，包括学习时间、学习内容、目标等，可以帮助你更好地管理时间和精力，避免学习过程中的松懈和分心。nn2. 寻找合适的学习资源：选择适合自己的学习资源，例如在线课程、编程书籍、视频教程等，可以让你更好地了解和掌握编程知识和技能。nn3. 寻求帮助和支持：在学习过程中，遇到问题和困难是很正常的，可以寻求他人的帮助和支持，例如参加编程社区、找到编程导师等。nn4. 进行实践和项目：实践和项目是学习编程的重要组成部分，可以帮助你更好地了解和掌握编程技能，同时也可以提高学习的兴趣和动力。nn5. 坚持并保持兴趣：坚持学习和保持兴趣是学习编程的关键。可以通过参加编程社区、参加编程竞赛、与其他编程爱好者交流等方式来保持兴趣和动力。nn总之，学习编程需要耐心和坚持，并需要不断学习和实践。通过以上方法可以帮助你避免陷入困境和放弃。"
        }
    ],
}

Распределение данных Firefly-train-1.1M показано на рисунке ниже:

Данные перед тренировкой

Формат данных указан в файле data/pretrain/dummy_pretrain.jsonl в проекте.

Данные ДПО

Формат данных указан в файле data/dummy_dpo.jsonl в проекте.

Модельное обучение

Если во время обучения сообщается об ошибке, вы можете сначала просмотреть FAQ.

Извлекаем различные компоненты, используемые в обучении, для последующего расширения и оптимизации. Подробности смотрите в каталоге компонентов. Конфигурация параметров во время обучения сохраняется в каталоге train_args для упрощения унифицированного управления и внесения изменений. Вы можете просмотреть конфигурации обучения различных моделей в каталоге train_args и при необходимости изменить или добавить их.

Среда установки

Версии нескольких основных пакетов Python исправлены в файле require.txt. Просто выполните следующий скрипт. Уведомление:

Для большинства моделей мы отлаживаем и обучаем в среде torch==1.13, Transformers==4.36. Однако некоторым новым моделям необходимо обновить версию трансформеров.
- Qwen1.5 требует обновления трансформеров только до версии 4.37.
- Джемме необходимо обновить трансформеры только до 4.38.1, torch==2.0.0.
При использовании QLoRA для обучения Baichuan2 вам необходимо установить torch==2.0 и удалить xformers и apex.
При использовании QLoRA для тренировки Qwen необходимо удалить flash-attn, иначе будет сообщено об ошибке.

pip install requirements.txt

Если вам нужно включить Unsloth, рекомендуется установить или обновить следующие пакеты Python:

pip install git+https://github.com/unslothai/unsloth.git
pip install bitsandbytes==0.43.1
pip install peft==0.10.0
pip install torch==2.2.2
pip install xformers==0.0.25.post1

Если вам нужно использовать Unsloth для обучения Qwen1.5, установите следующие пакеты:

pip install git+https://github.com/yangjianxin1/unsloth.git

функция потерь

Во время предварительного обучения мы используем классический авторегрессионный убыток, то есть в расчете убытка будет участвовать токен на каждой позиции.

При доработке инструкции мы рассчитываем только потери части восстановления помощника.

Описание параметра

В каталоге train_args хранятся файлы конфигурации для разных моделей с использованием разных методов обучения. Основные параметры описаны следующим образом:

output_dir: каталог вывода обучения, в котором хранятся контрольная точка, токенизатор, тензорная доска и т. д.
model_name_or_path: локальный каталог предварительно обученной модели или имя модели на HuggingFace.
train_file: путь к набору обучающих данных. sft, его необходимо установить в виде файла, и вы можете использовать data/dummy_data.jsonl для отладки. При предварительном обучении его необходимо установить в каталог. Скрипт автоматически просканирует все файлы JSONL в каталоге.
имя_шаблона: имя шаблона, используемое при точной настройке инструкции. Конкретные имена шаблонов см. в файле компонент/template.py.
num_train_epochs: тренировочные раунды. Если объем данных достаточно велик, обычно рекомендуется обучать только одну эпоху.
tokenize_num_workers: количество потоков токенизации во время предварительного обучения, значение по умолчанию — 10.
deepspeed: файл конфигурации обучения для deepspeed. При обучении с полными параметрами будет использоваться deepspeed. Инструкции по настройке параметров deepspeed см. в документе deepspeed.
train_mode: режим обучения, полный, lora или qlora, по умолчанию — qlora.
Task_type: тип задачи, предварительное обучение, sft или dpo, значение по умолчанию — sft.
per_device_train_batch_size: размер пакета каждой видеокарты.
gradient_accumulation_steps: количество шагов накопления градиента. глобальный пакет = num_gpus * per_device_train_batch_size *gradient_accumulation_steps.
Gradient_checkpointing: Если видеопамяти мало, можно включить. Торгуя временем ради места, модель не кэширует статус активации и выполняет два прямых вычисления для экономии видеопамяти.
Learning_rate: скорость обучения. При точной настройке всех параметров рекомендуется использовать меньшее значение, 1e-5 или 5e-6.
max_seq_length: максимальная длина во время обучения. Установите его в соответствии со своим устройством. Чем он длиннее, тем больше видеопамяти он займет.
max_prompt_length: максимальная длина запроса при выполнении dpo.
logging_steps: сколько шагов следует учитывать при потере поезда.
save_steps: сколько шагов необходимо сделать для сохранения модели.
save_total_limit: максимальное количество контрольных точек, сохраненных в каталоге output_dir. При превышении самая старая из них будет удалена.
lr_scheduler_type: стратегия изменения скорости обучения.
Warmup_steps: количество шагов разминки. Сколько шагов потребуется скорости обучения, чтобы увеличиться до заданного значения.
оптим: Оптимизатор. Если речь идет о полной настройке параметров, рекомендуется использовать adamw_hf.
начальное число: случайное начальное число, используемое для воспроизведения результатов эксперимента.
fp16: использовать смешанную точность fp16. V100 рекомендуется включить.
bf16: использовать смешанную точность bf16. А100 рекомендуется включить.
use_unsloth: использовать ли unsloth. В настоящее время unsloth поддерживает только некоторые модели, такие как Llama3, Mistral, Gemma, TinyLlama и т. д. Подробности см. в разделе Unsloth.

При использовании обучения QLoRA необходимо установить следующие параметры:

lora_rank: ранг матрицы qlora. Обычно устанавливается на 8, 16, 32, 64 и т. д., автор в статье qlora установил его на 64. Чем больше значение, тем большее количество параметров задействовано в обучении. В общем, эффект будет лучше, но видеопамяти потребуется больше.
lora_alpha: параметр масштабирования в qlora. Обычно его можно установить на 16 или 32.
lora_dropout: процент выпадения веса Лоры.

Что касается конфигурации параметров DeepSpeed, вы можете изменить их по мере необходимости.

Начать обучение

Полное предварительное обучение параметров, замените {num_gpus} на количество видеокарт:

deepspeed --num_gpus={num_gpus} train.py --train_args_file train_args/pretrain/full/bloom-1b1-pretrain-full.json

Точная настройка всех инструкций параметров, замена {num_gpus} на количество видеокарт:

deepspeed --num_gpus={num_gpus} train.py --train_args_file train_args/sft/full/bloom-1b1-sft-full.json

Предварительное обучение QLoRA по одной карте:

python train.py --train_args_file train_args/pretrain/qlora/yi-6b-pretrain-qlora.json

Точная настройка инструкции QLoRA для одной карты:

python train.py --train_args_file train_args/sft/qlora/yi-6b-sft-qlora.json

Предварительное обучение Doka QLoRA:

torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/pretrain/qlora/yi-6b-pretrain-qlora.json

Доработка инструкции Doka QLoRA:

torchrun --nproc_per_node={num_gpus} train.py --train_args_file train_args/sft/qlora/yi-6b-sft-qlora.json

Одна карта QLoRA для обучения DPO:

python train.py --train_args_file train_args/sft/qlora/minicpm-2b-dpo-qlora.json

Использование модели

объединение весов

Если вы используете LoRA или QLoRA для обучения, этот проект сохраняет только веса и файлы конфигурации адаптера, и вам необходимо объединить веса адаптера с базовой моделью. Сценарий см. в script/merge_lora.py.

Модельное рассуждение

Мы предоставляем интерактивный сценарий для нескольких раундов диалога. Подробную информацию см. в каталоге сценариев/чата. Этот сценарий совместим со всеми моделями, обученными в этом проекте. Имя_шаблона, заданное в скрипте, должно соответствовать имени_шаблона во время обучения модели.

 cd script/chat
python chat.py

Top_p, температура, повторение_пенальти, do_sample и другие параметры в сценарии генерации оказывают большое влияние на эффект генерации модели и могут быть отлажены и изменены в соответствии с вашими собственными сценариями использования.

Скрипт вывода поддерживает использование базовой модели и адаптера для вывода. Недостаток заключается в том, что каждый раз при запуске сценария необходимо объединять веса, что занимает много времени.

Поддерживает использование 4-битного вывода, низкие требования к памяти, и эффект будет немного уменьшен.

Часто задаваемые вопросы

Вопрос 1: Как решить ООМ?

Если возникает OOM, для его устранения можно уменьшить такие параметры, как per_device_train_batch_size и max_seq_length. Вы также можете установить градиент_checkpointing=true, что может значительно сократить использование памяти, но скорость обучения будет медленнее.

Проблема 2. Ошибка установочного пакета.

В файле require.txt есть версии каждого пакета Python.

pip install -r requirements.txt

Вопрос 3: Как указать использование определенных карт для обучения?

Указать использование карточек №0 и №1 для обучения можно следующими способами:

CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node={num_gpus} train_qlora.py --train_args_file train_args/qlora/baichuan-7b-sft-qlora.json

Проблема 4: Не удалось обучить Байчуань2.

Для обучения Baichuan2 необходимо установить torch==2.0 и удалить xformers и apex, в противном случае будет выдано сообщение об ошибке.

 RuntimeError: No such operator xformers::efficient_attention_forward_generic - did you forget to build xformers with `python setup.py develop`?

Проблема 5: Обучение Квен провалилось

Qwen необходимо удалить flash-attn для обучения QLoRA, иначе будет сообщено об ошибке:

 assert all((i.dtype in [torch.float16, torch.bfloat16] for i in (q, k, v)))

Вопрос 6: После того, как Qwen-Base и Yi-Base пройдут SFT, <|im_end|> не может быть сгенерирован и не может быть остановлен обычным образом.

После запроса эта проблема широко распространена в официальной базе кода Qwen. Если вы тренируете Qwen-Base и Yi-Base, рекомендуется установить template_name="default", чтобы избежать этой проблемы. Если вы выполняете SFT на моделях Qwen-Chat и Yi-Chat, эта проблема не возникнет. Вы можете установить для параметра template_name значения «qwen» и «yi» соответственно.

Примечание. Эта проблема не существует в Qwen1.5.

Ограничения и ограничения на использование

Из-за таких факторов, как ограничение параметров модели и степень очистки обучающих данных, модель с открытым исходным кодом этого проекта может иметь следующие ограничения:

Что касается фактических знаний, легко дать неправильные ответы.
Поскольку он не был безобидно настроен, он может производить дискриминационные, вредные и неэтичные замечания.
Все еще существуют недостатки в способностях к кодированию и рассуждению.

Исходя из ограничений вышеуказанной модели, мы требуем, чтобы код, данные и модели этого проекта не использовались в целях, наносящих вред обществу, и соответствовали коммерческой лицензии базовой модели.

Цитировать

Если вы используете данные, код или модели из этого проекта, укажите этот проект.

 @misc{Firefly,
  author = {Jianxin Yang},
  title = {Firefly(流萤): 中文对话式大语言模型},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/yangjianxin1/Firefly}},
}

Звездная история

Расширять