Model pidato fusi awal buatan sendiri
Catatan
Pembaruan: 30 September 2024
Kami telah mengganti merek dari llama3-s menjadi ? Ichigo.
Model ucapan fusi awal yang dibuat khusus kini memiliki nama dan suara.
Ini telah meningkatkan kemampuan multiturn dan sekarang dapat menolak untuk memproses pertanyaan yang tidak terdengar.
Peringatan
Ichigo adalah eksperimen penelitian terbuka
Bergabunglah dengan kami di saluran #research
di Homebrew's Discord
Kami menyiarkan langsung pelatihan yang dijalankan di #research-livestream
Ichigo adalah eksperimen penelitian terbuka dan berkelanjutan untuk memperluas LLM berbasis teks agar memiliki kemampuan "mendengarkan" asli. Anggap saja sebagai data terbuka, bobot terbuka, di perangkat Siri.
Ini menggunakan teknik fusi awal yang terinspirasi oleh kertas Chameleon milik Meta.
Kami membangun kereta di depan umum:
Penulisan Pos Pemeriksaan Ichigo v0.3
Penulisan Pos Pemeriksaan Ichigo v0.2
Penulisan Pos Pemeriksaan Ichigo v0.1
22 Oktober: ? Rilis Makalah Penelitian: Kami dengan bangga mengumumkan publikasi makalah penelitian kami yang merinci pengembangan dan inovasi teknis di balik seri Ichigo. Detail teknis lengkap, metodologi, dan hasil eksperimen kini tersedia di makalah kami.
4 Okt: Model Ichigo v0.3 sekarang tersedia. Memanfaatkan data yang lebih bersih dan lebih baik, model kami telah mencapai peningkatan skor MMLU sebesar 63,79 dan menunjukkan kemampuan mengikuti instruksi ucapan yang lebih kuat, bahkan dalam interaksi multi-putaran. Selain itu, dengan menggabungkan data sintetis kebisingan, kami telah berhasil melatih model untuk menolak pemrosesan input audio non-ucapan dari pengguna, sehingga semakin meningkatkan fungsionalitas dan pengalaman pengguna.
23 Agustus: Kami sangat gembira untuk berbagi Ichigo-llama3.1-s-instruct-v0.2, pos pemeriksaan multimodal terbaru kami dengan pemahaman ucapan yang lebih baik dengan meningkatkan kemampuan mengikuti instruksi audio model melalui pelatihan tentang interleaving data sintetis.
17 Agustus: Kami melatih model LLaMA 3.1 kami terlebih dahulu tentang data ucapan berkelanjutan, yang diberi token menggunakan WhisperSpeechVQ. Kerugian terakhir menyatu menjadi sekitar 1,9, menghasilkan pos pemeriksaan kami: Ichigo-llama3.1-s-base-v0.2
1 Agustus: Kesalahan ketik yang teridentifikasi pada resep pelatihan asli, menyebabkan penurunan signifikan (MMLU: 0,6 -> 0,2), usulan perbaikan.
30 Juli: Mempresentasikan kemajuan llama3 di: Pelatihan AI: Dari PyTorch hingga Cluster GPU
19 Juli: llama3-s-2024-07-19 memahami suara sintetis dengan hasil terbatas
1 Juli: llama3-s-2024-07-08 menunjukkan kerugian konvergen (1,7) dengan data terbatas
Ichigo adalah proyek penelitian terbuka. Kami sedang mencari kolaborator, dan kemungkinan akan beralih ke kumpulan data ucapan crowdsourcing di masa mendatang.
Lihat notebook ini untuk mencoba model terbaru kami:
Untuk informasi rinci tentang generasi sintetis, silakan merujuk ke Panduan Generasi Sintetis.
Pertama Kloning Repo dari github:
git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git
Struktur foldernya adalah sebagai berikut:
Ichigo ├── HF_Trainer # HF training code (deprecated) ├── synthetic_data # Synthetic data generation pipeline ├── configs # Audio pipeline configs ├── audio_to_audio # Parler audio (.wav) to semantic tokens ├── synthetic_generation_config # TTS semantic tokens ├── scripts # Setup scripts for Runpod ├── torchtune # Submodule: our fork of fsdp with checkpointing ├── model_zoo # Model checkpoints │ ├── LLM │ │ ├── Meta-Llama-3-8B-Instruct │ │ ├── Meta-Llama-3-70B-Instruct ├── demo # Selfhost this demo (vllm) ├── inference # Google Colab
Instal Dependensi
python -m venv hf_trainer chmod +x scripts/install.sh ./scripts/install.sh
Mulai ulang shell sekarang
chmod +x scripts/setup.sh ./scripts/setup.sh source myenv/bin/activate
Mencatat Wajah Memeluk
huggingface-cli login --token=<token>
Pelatihan
export CUTLASS_PATH="cutlass" export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch --config_file ./accelerate_config.yaml train.py
Instal Paket
python -m venv torchtune pip install torch torchvision tensorboard cd ./torchtune pip install -e .
Anda juga dapat mengunduh modelnya menggunakan tune:
tune download homebrewltd/llama3.1-s-whispervq-init --hf-token <token> --output-dir ../model_zoo/llama3.1-s-whispervq-init --ignore-patterns "original/consolidated*"
Siapkan Kumpulan Data dari jalur HF dengan mengubah jalur dan mengubah nama model di file YAML berikut.
nano torchtune/recipes/configs/jan-llama3-s/8B_full.yaml
Melatih Multi GPU (Mendukung 1-8GPU)
tune run --nproc_per_node 4 full_finetune_fsdp2 --config recipes/configs/jan-llama3-1-s/8B_full.yaml
Untuk petunjuk tentang cara menghosting sendiri demo UI web Ichigo menggunakan Docker, silakan kunjungi: Demo Ichigo. Untuk mencoba demo kami pada satu GPU RTX 4090, Anda dapat langsung mengunjungi: https://ichigo.homebrew.ltd.
Kami menawarkan kode bagi pengguna untuk membuat demo UI web. Silakan ikuti petunjuk di bawah ini:
python -m venv demo source demo/bin/activate # First install all required packages pip install --no-cache-dir -r ./demo/requirements.txt
Kemudian jalankan perintah di bawah ini untuk meluncurkan demo Gradio secara lokal. Anda dapat menambahkan variabel use-4bit
dan use-8bit
untuk penggunaan terkuantisasi:
python -m demo.app --host 0.0.0.0 --port 7860 --max-seq-len 1024
Anda juga dapat menghosting demo menggunakan vLLM untuk inferensi yang lebih cepat tetapi tidak mendukung keluaran streaming:
python -m demo.app_vllm
Atau, Anda dapat dengan mudah mencoba demo kami di HuggingFace?
@misc{chameleonteam2024chameleonmixedmodalearlyfusionfoundation, title={Bunglon: Model Yayasan Penggabungan Awal Modal Campuran}, penulis={Tim Bunglon}, tahun={2024}, eprint={2405.09818}, archivePrefix={arXiv}, primaryClass={cs.CL}, journal={arXiv preprint}}@misc{zhang2024adamminiusefewerlearning, title={Adam- mini: Gunakan Kecepatan Pembelajaran Lebih Sedikit Untuk Mendapatkan Lebih Banyak}, author={Yushun Zhang dan Congliang Chen dan Ziniu Li dan Tian Ding dan Chenwei Wu dan Yinyu Ye dan Zhi-Quan Luo dan Ruoyu Sun}, year={2024}, eprint={2406.16793}, archivePrefix={arXiv}, primaryClass= {cs.LG}, journal={arXiv preprint}}@misc{defossez2022highfi, title={Tinggi Fidelity Neural Audio Compression}, author={Défossez, Alexandre and Copet, Jade dan Synnaeve, Gabriel dan Adi, Yossi}, year={2022}, eprint={2210.13438}, archivePrefix={arXiv}, journal={arXiv preprint} }@misc{WhisperSpeech, title={WhisperSpeech: Sumber Terbuka Sistem Text-to-Speech Dibangun dengan Membalikkan Bisikan}, author={Colllabora dan LAION}, year={2024}, url={https://github.com/collabora/WhisperSpeech}, note={repositori GitHub}}
Torchtune: Basis kode yang kami bangun
Mempercepat: Perpustakaan untuk kemudahan penggunaan pelatihan terdistribusi
WhisperSpeech: Model text-to-speech untuk pembuatan audio sintetis
Encodec: Codec audio neural dengan ketelitian tinggi untuk kompresi audio yang efisien
Llama3: Keluarga Model yang kami jadikan dasar memiliki kemampuan bahasa yang luar biasa !!!