Домашняя модель речи раннего слияния
Примечание
Обновление: 30 сентября 2024 г.
Мы провели ребрендинг с llama3-s на ? Ичиго.
У нашей специально созданной речевой модели раннего слияния теперь есть имя и голос.
Он имеет улучшенные возможности многооборотности и теперь может отказываться от обработки неразборчивых запросов.
Предупреждение
Ичиго — открытый исследовательский эксперимент.
Присоединяйтесь к нам на канале #research
в Discord Homebrew.
Мы проводим прямые трансляции обучения в #research-livestream
Ичиго — это открытый, продолжающийся исследовательский эксперимент по расширению текстового LLM, чтобы он имел встроенную способность «слушания». Думайте об этом как об открытых данных, открытом весе на устройстве Siri.
Он использует раннюю технику синтеза, вдохновленную бумагой Меты Хамелеон.
Мы строим поезд публично:
Запись контрольной точки Ichigo v0.3
Запись контрольной точки Ichigo v0.2
Запись контрольной точки Ichigo v0.1
22 октября: ? Выпуск исследовательской статьи: Мы рады объявить о публикации нашей исследовательской статьи, в которой подробно описываются разработки и технические инновации серии Ichigo. Полные технические детали, методология и результаты экспериментов теперь доступны в нашей статье.
4 октября: теперь доступны модели Ichigo v0.3. Используя более чистые и улучшенные данные, наша модель достигла улучшенного показателя MMLU 63,79 и демонстрирует более сильные возможности следования речевым инструкциям даже при многооборотном взаимодействии. Кроме того, за счет включения шумо-синтетических данных мы успешно обучили модель отказываться от обработки неречевых аудиовходов пользователей, что еще больше улучшило ее функциональность и удобство для пользователей.
23 августа: Мы рады представить Ichigo-llama3.1-s-instruct-v0.2, нашу новейшую мультимодальную контрольную точку с улучшенным пониманием речи за счет расширения возможностей модели по следованию аудиоинструкциям посредством обучения чередованию синтетических данных.
17 августа: Мы предварительно обучили нашу модель LLaMA 3.1 на данных непрерывной речи, токенизированных с помощью WhisperSpeechVQ. Окончательная потеря приблизилась к 1,9, что привело к нашей контрольной точке: Ichigo-llama3.1-s-base-v0.2.
1 августа: Обнаружена опечатка в оригинальном рецепте обучения, вызывающая значительное ухудшение (MMLU: 0,6 -> 0,2), предложены исправления.
30 июля: Представлен прогресс llama3 на: Обучение искусственному интеллекту: от PyTorch к кластерам графических процессоров.
19 июля: llama3-s-19 июля 2024 г. понимает синтетический голос, но результаты ограничены.
1 июля: llama3-s-2024-07-08 показал сходящиеся потери (1,7) с ограниченными данными.
Ичиго — открытый исследовательский проект. Мы ищем сотрудников и, вероятно, в будущем перейдем к краудсорсингу наборов речевых данных.
Приобретите этот ноутбук, чтобы попробовать нашу последнюю модель:
Подробную информацию о синтетической генерации можно найти в Руководстве по синтетической генерации.
Сначала клонируйте репо с github:
git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git
Структура папок следующая:
Ichigo ├── HF_Trainer # HF training code (deprecated) ├── synthetic_data # Synthetic data generation pipeline ├── configs # Audio pipeline configs ├── audio_to_audio # Parler audio (.wav) to semantic tokens ├── synthetic_generation_config # TTS semantic tokens ├── scripts # Setup scripts for Runpod ├── torchtune # Submodule: our fork of fsdp with checkpointing ├── model_zoo # Model checkpoints │ ├── LLM │ │ ├── Meta-Llama-3-8B-Instruct │ │ ├── Meta-Llama-3-70B-Instruct ├── demo # Selfhost this demo (vllm) ├── inference # Google Colab
Установить зависимости
python -m venv hf_trainer chmod +x scripts/install.sh ./scripts/install.sh
Перезапустить оболочку сейчас
chmod +x scripts/setup.sh ./scripts/setup.sh source myenv/bin/activate
Регистрация
huggingface-cli login --token=
Обучение
export CUTLASS_PATH="cutlass" export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch --config_file ./accelerate_config.yaml train.py
Установить пакет
python -m venv torchtune pip install torch torchvision tensorboard cd ./torchtune pip install -e .
Вы также можете скачать модель с помощью Tune:
tune download homebrewltd/llama3.1-s-whispervq-init --hf-token--output-dir ../model_zoo/llama3.1-s-whispervq-init --ignore-patterns "original/consolidated*"
Настройте набор данных из пути HF, изменив путь и имя модели в следующем файле YAML.
nano torchtune/recipes/configs/jan-llama3-s/8B_full.yaml
Обучение работе с несколькими графическими процессорами (поддерживается 1–8 графических процессоров)
tune run --nproc_per_node 4 full_finetune_fsdp2 --config recipes/configs/jan-llama3-1-s/8B_full.yaml
Инструкции по самостоятельному размещению демо-версии веб-интерфейса Ichigo с помощью Docker см. на странице: Демо-версия Ichigo. Чтобы опробовать нашу демоверсию на одном графическом процессоре RTX 4090, вы можете перейти по адресу: https://ichigo.homebrew.ltd.
Мы предлагаем пользователям код для создания демонстрации веб-интерфейса. Пожалуйста, следуйте инструкциям ниже:
python -m venv demo source demo/bin/activate # First install all required packages pip install --no-cache-dir -r ./demo/requirements.txt
Затем выполните команду ниже, чтобы запустить демо-версию Gradio локально. Вы можете добавить переменные use-4bit
и use-8bit
для квантования:
python -m demo.app --host 0.0.0.0 --port 7860 --max-seq-len 1024
Вы также можете разместить демо-версию, используя vLLM для более быстрого вывода, но она не поддерживает потоковый вывод:
python -m demo.app_vllm
Кроме того, вы можете легко попробовать нашу демо-версию на HuggingFace?
@misc{chameleonteam2024chameleonmixedmodalearlyfusionfoundation, title={Хамелеон: смешанно-модальные модели Early-Fusion Foundation}, автор={Chameleon Team}, год={2024}, eprint={2405.09818}, archivePrefix={arXiv}, PrimaryClass={cs.CL}, журнал={arXiv preprint}}@misc{zhang2024adamminiusefewerlearning, title={Адам- мини: используйте меньше скорости обучения, чтобы получить больше}, автор={Юшунь Чжан и Конлян Чен, Цзинью Ли и Тянь Дин, Ченвэй Ву и Иньюй Е, Чжи-Цюань Ло и Жоюй Сунь}, год={2024}, eprint={2406.16793}, archivePrefix={arXiv}, PrimaryClass= {cs.LG}, журнал={препринт arXiv}}@misc{defossez2022highfi, title={Высококачественное нейронное аудиосжатие}, автор={Дефосс, Александр и Копе, Джейд и Синнейв, Габриэль и Ади, Йосси}, год= {2022}, eprint={2210.13438}, archivePrefix={arXiv}, журнал={arXiv preprint}}@misc{WhisperSpeech, title={WhisperSpeech: система преобразования текста в речь с открытым исходным кодом, созданная путем инвертирования шепота}, автор={Collabora и LAION}, год={2024}, url={https://github.com/collabora/WhisperSpeech}, note={репозиторий GitHub}}
Torchtune: кодовая база, на которой мы работали
Accelerate: библиотека для удобного использования распределенного обучения.
WhisperSpeech: модель преобразования текста в речь для генерации синтетического звука.
Кодек: высококачественный нейронный аудиокодек для эффективного сжатия звука.
Llama3: семейство моделей, на основе которого мы создали потрясающие языковые возможности!!!