โมเดลคำพูดฟิวชั่นในช่วงต้นแบบ Homebrewed
บันทึก
อัปเดต: 30 กันยายน 2024
เราได้เปลี่ยนชื่อจาก llama3-s เป็น ? อิจิโกะ.
ขณะนี้โมเดลคำพูดแบบฟิวชันล่วงหน้าที่สร้างขึ้นแบบกำหนดเองของเรามีชื่อและเสียงแล้ว
มีการปรับปรุงความสามารถแบบ multiturn และตอนนี้สามารถปฏิเสธที่จะประมวลผลคำสั่งที่ไม่ได้ยินได้
คำเตือน
อิจิโกะเป็นการทดลองวิจัยแบบเปิด
เข้าร่วมกับเราในช่อง #research
ใน Discord ของ Homebrew
เราถ่ายทอดสดการฝึกอบรมใน #research-livestream
อิจิโกะเป็นการทดลองวิจัยที่เปิดกว้างและดำเนินอยู่เพื่อขยาย LLM ที่ใช้ข้อความให้มีความสามารถในการ "ฟัง" แบบเนทีฟ ให้คิดว่ามันเป็นข้อมูลแบบเปิด น้ำหนักแบบเปิด บนอุปกรณ์ Siri
ใช้เทคนิคฟิวชั่นยุคแรกที่ได้รับแรงบันดาลใจจากกระดาษ Chameleon ของ Meta
เรา สร้าง รถไฟในที่สาธารณะ:
Ichigo v0.3 การเขียนจุดตรวจสอบ
Ichigo v0.2 การเขียนจุดตรวจสอบ
Ichigo v0.1 การเขียนจุดตรวจสอบ
22 ต.ค. : ? การเปิดตัวรายงานการวิจัย: เรามีความยินดีที่จะประกาศการตีพิมพ์รายงานการวิจัยของเราซึ่งมีรายละเอียดเกี่ยวกับการพัฒนาและนวัตกรรมทางเทคนิคที่อยู่เบื้องหลังซีรีส์ Ichigo รายละเอียดทางเทคนิค วิธีการ และผลการทดลองทั้งหมดมีอยู่ในเอกสารของเราแล้ว
4 ต.ค.: รุ่น Ichigo v0.3 วางจำหน่ายแล้ว ด้วยการใช้ข้อมูลที่สะอาดขึ้นและปรับปรุงให้ดีขึ้น แบบจำลองของเราได้รับคะแนน MMLU ที่ได้รับการปรับปรุงที่ 63.79 และแสดงให้เห็นถึงความสามารถในการปฏิบัติตามคำสั่งคำพูดที่แข็งแกร่งยิ่งขึ้น แม้ว่าจะโต้ตอบหลายรอบก็ตาม นอกจากนี้ ด้วยการรวมข้อมูลการสังเคราะห์เสียงเข้าด้วยกัน เราจึงประสบความสำเร็จในการฝึกโมเดลให้ปฏิเสธการประมวลผลอินพุตเสียงที่ไม่ใช่คำพูดจากผู้ใช้ และปรับปรุงฟังก์ชันการทำงานและประสบการณ์ผู้ใช้ให้ดียิ่งขึ้น
23 ส.ค.: เรารู้สึกตื่นเต้นที่จะแบ่งปัน Ichigo-llama3.1-s-instruct-v0.2 ซึ่งเป็นจุดตรวจต่อเนื่องหลายรูปแบบล่าสุดของเราพร้อมความเข้าใจคำพูดที่ได้รับการปรับปรุงโดยการปรับปรุงความสามารถในการปฏิบัติตามคำสั่งเสียงของโมเดลผ่านการฝึกอบรมเกี่ยวกับข้อมูลสังเคราะห์ที่สอดแทรก
17 สิงหาคม: เราได้ฝึกอบรมโมเดล LLaMA 3.1 ของเราล่วงหน้าเกี่ยวกับข้อมูลคำพูดต่อเนื่อง ซึ่งสร้างโทเค็นโดยใช้ WhisperSpeechVQ การสูญเสียครั้งสุดท้ายรวมกันเป็นประมาณ 1.9 ส่งผลให้จุดตรวจของเรา: Ichigo-llama3.1-s-base-v0.2
1 สิงหาคม: ตรวจพบการพิมพ์ผิดในสูตรการฝึกอบรมดั้งเดิม ส่งผลให้ประสิทธิภาพลดลงอย่างมาก (MMLU: 0.6 -> 0.2) การแก้ไขที่เสนอ
30 กรกฎาคม: นำเสนอความคืบหน้าของ llama3-s ที่: การฝึกอบรม AI: จาก PyTorch สู่คลัสเตอร์ GPU
19 กรกฎาคม: llama3-s-2024-07-19 เข้าใจเสียงสังเคราะห์แต่ได้ผลจำกัด
1 กรกฎาคม: llama3-s-2024-07-08 แสดงการสูญเสียแบบบรรจบกัน (1.7) โดยมีข้อมูลที่จำกัด
อิจิโกะเป็นโครงการวิจัยแบบเปิด เรากำลังมองหาผู้ทำงานร่วมกัน และมีแนวโน้มที่จะก้าวไปสู่ชุดข้อมูลคำพูดจากมวลชนในอนาคต
ชำระเงินสมุดบันทึกนี้เพื่อลองใช้รุ่นล่าสุดของเรา:
สำหรับข้อมูลโดยละเอียดเกี่ยวกับการสร้างสารสังเคราะห์ โปรดดูคู่มือการสร้างสารสังเคราะห์
ขั้นแรกให้โคลน Repo จาก github:
git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git
โครงสร้างโฟลเดอร์เป็นดังนี้:
Ichigo ├── HF_Trainer # HF training code (deprecated) ├── synthetic_data # Synthetic data generation pipeline ├── configs # Audio pipeline configs ├── audio_to_audio # Parler audio (.wav) to semantic tokens ├── synthetic_generation_config # TTS semantic tokens ├── scripts # Setup scripts for Runpod ├── torchtune # Submodule: our fork of fsdp with checkpointing ├── model_zoo # Model checkpoints │ ├── LLM │ │ ├── Meta-Llama-3-8B-Instruct │ │ ├── Meta-Llama-3-70B-Instruct ├── demo # Selfhost this demo (vllm) ├── inference # Google Colab
ติดตั้งการพึ่งพา
python -m venv hf_trainer chmod +x scripts/install.sh ./scripts/install.sh
รีสตาร์ทเชลล์ทันที
chmod +x scripts/setup.sh ./scripts/setup.sh source myenv/bin/activate
เข้าสู่ระบบ Huggingface
huggingface-cli login --token=
การฝึกอบรม
export CUTLASS_PATH="cutlass" export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch --config_file ./accelerate_config.yaml train.py
ติดตั้งแพ็คเกจ
python -m venv torchtune pip install torch torchvision tensorboard cd ./torchtune pip install -e .
คุณยังสามารถดาวน์โหลดโมเดลโดยใช้การปรับแต่ง:
tune download homebrewltd/llama3.1-s-whispervq-init --hf-token--output-dir ../model_zoo/llama3.1-s-whispervq-init --ignore-patterns "original/consolidated*"
ตั้งค่าชุดข้อมูลจากเส้นทาง HF โดยเปลี่ยนเส้นทางและเปลี่ยนชื่อโมเดลในไฟล์ YAML ต่อไปนี้
nano torchtune/recipes/configs/jan-llama3-s/8B_full.yaml
การฝึกอบรม Multi GPU (รองรับ 1-8GPUs)
tune run --nproc_per_node 4 full_finetune_fsdp2 --config recipes/configs/jan-llama3-1-s/8B_full.yaml
สำหรับคำแนะนำเกี่ยวกับวิธีการโฮสต์การสาธิต Ichigo web UI ด้วยตนเองโดยใช้ Docker โปรดไปที่: การสาธิต Ichigo หากต้องการลองสาธิตของเรากับ RTX 4090 GPU ตัวเดียว คุณสามารถไปที่: https://ichigo.homebrew.ltd ได้โดยตรง
เราเสนอโค้ดสำหรับผู้ใช้เพื่อสร้างการสาธิต UI บนเว็บ โปรดปฏิบัติตามคำแนะนำด้านล่าง:
python -m venv demo source demo/bin/activate # First install all required packages pip install --no-cache-dir -r ./demo/requirements.txt
จากนั้นรันคำสั่งด้านล่างเพื่อเปิดการสาธิต Gradio ในเครื่อง คุณสามารถเพิ่มตัวแปร use-4bit
และ use-8bit
สำหรับการใช้งานเชิงปริมาณ:
python -m demo.app --host 0.0.0.0 --port 7860 --max-seq-len 1024
คุณยังสามารถโฮสต์การสาธิตโดยใช้ vLLM เพื่อการอนุมานที่เร็วขึ้น แต่ไม่รองรับเอาท์พุตการสตรีม:
python -m demo.app_vllm
หรือคุณสามารถลองสาธิตของเราบน HuggingFace ได้อย่างง่ายดาย
@misc{chameleonteam2024chameleonmixedmodalearlyfusionfoundation, title={Chameleon: Mixed-Modal Early-Fusion Foundation Models}, author={Chameleon Team}, year={2024}, eprint={2405.09818}, archivePrefix={arXiv}, primaryClass={cs.CL}, Journal={arXiv preprint}}@misc{zhang2024adamminiusefewerlearning, title={Adam- mini: ใช้อัตราการเรียนรู้น้อยลงเพื่อให้ได้มากขึ้น}, author={Yushun Zhang และ Congliang Chen และ Ziniu Li และ Tian Ding และ Chenwei Wu และ Yinyu Ye และ Zhi-Quan Luo และ Ruoyu Sun}, ปี={2024}, eprint={2406.16793}, archivePrefix={arXiv}, primaryClass= {cs.LG}, Journal={arXiv preprint}}@misc{defossez2022highfi, title={การบีบอัดเสียงประสาทความเที่ยงตรงสูง}, ผู้แต่ง={Défossez, Alexandre and Copet, Jade และ Synnaeve, Gabriel และ Adi, Yossi}, ปี= {2022}, eprint={2210.13438}, archivePrefix={arXiv}, Journal={arXiv preprint}}@misc{WhisperSpeech, title={WhisperSpeech: ระบบแปลงข้อความเป็นคำพูดแบบโอเพ่นซอร์สที่สร้างโดย Inverting Whisper}, author={Collabora และ LAION}, ปี={2024}, url={https://github.com/collabora/WhisperSpeech}, note={ที่เก็บ GitHub}}
Torchtune: โค้ดเบสที่เราสร้างขึ้น
เร่งรัด: ห้องสมุดเพื่อการใช้งานการฝึกอบรมแบบกระจายที่ง่ายดาย
WhisperSpeech: โมเดลการอ่านออกเสียงข้อความสำหรับการสร้างเสียงสังเคราะห์
เข้ารหัส: ตัวแปลงสัญญาณเสียงระบบประสาทความเที่ยงตรงสูงเพื่อการบีบอัดเสียงที่มีประสิทธิภาพ
Llama3: ตระกูลโมเดลที่เรายึดถือซึ่งมีความสามารถด้านภาษาที่น่าทึ่ง !!!