نموذج خطاب الانصهار المبكر محلي الصنع
ملحوظة
التحديث: 30 سبتمبر 2024
لقد قمنا بتغيير علامتنا التجارية من llama3-s إلى ؟ برمجة.
أصبح الآن لنموذج الكلام المدمج المخصص لدينا اسم وصوت.
لقد قام بتحسين قدرات التشغيل المتعدد ويمكنه الآن رفض معالجة الاستعلامات غير المسموعة.
تحذير
Ichigo هي تجربة بحثية مفتوحة
انضم إلينا في قناة #research
في Homebrew's Discord
نحن نجري تدريبات البث المباشر في #research-livestream
Ichigo عبارة عن تجربة بحثية مفتوحة ومستمرة لتوسيع نطاق LLM القائم على النصوص للحصول على قدرة "الاستماع" الأصلية. فكر في الأمر كبيانات مفتوحة ووزن مفتوح على جهاز Siri.
يستخدم تقنية اندماج مبكرة مستوحاة من ورق Meta's Chameleon.
نبني القطار في الأماكن العامة:
برمجة نقطة التفتيش v0.3 الكتابة
برمجة نقطة التفتيش v0.2 الكتابة
برمجة نقطة التفتيش v0.1 الكتابة
22 أكتوبر: ? إصدار ورقة بحثية: يسعدنا أن نعلن عن نشر ورقتنا البحثية التي تتضمن تفاصيل التطوير والابتكارات التقنية وراء سلسلة Ichigo. التفاصيل الفنية الكاملة والمنهجية والنتائج التجريبية متاحة الآن في ورقتنا.
4 أكتوبر: أصبحت نماذج Ichigo v0.3 متاحة الآن. باستخدام البيانات النظيفة والمحسنة، حقق نموذجنا درجة MMLU محسنة تبلغ 63.79 ويظهر قدرات أقوى لمتابعة تعليمات الكلام، حتى في التفاعلات متعددة المنعطفات. بالإضافة إلى ذلك، من خلال دمج البيانات الاصطناعية للضوضاء، نجحنا في تدريب النموذج على رفض معالجة المدخلات الصوتية غير الكلامية من المستخدمين، مما يزيد من تحسين وظائفه وتجربة المستخدم.
23 أغسطس: يسعدنا مشاركة Ichigo-llama3.1-s-instruct-v0.2، أحدث نقطة تفتيش متعددة الوسائط لدينا مع فهم محسّن للكلام من خلال تعزيز إمكانات متابعة التعليمات الصوتية للنموذج من خلال التدريب على تشذير البيانات الاصطناعية.
17 أغسطس: قمنا بتدريب نموذج LLaMA 3.1 مسبقًا على بيانات الكلام المستمر، والتي تم ترميزها باستخدام WhisperSpeechVQ. تقاربت الخسارة النهائية إلى 1.9 تقريبًا، مما أدى إلى نقطة التفتيش الخاصة بنا: Ichigo-llama3.1-s-base-v0.2
1 أغسطس: تم اكتشاف خطأ مطبعي في وصفة التدريب الأصلية، مما تسبب في تدهور كبير (MMLU: 0.6 -> 0.2)، والإصلاحات المقترحة.
30 يوليو: عرض تقدم llama3-s في: تدريب الذكاء الاصطناعي: من PyTorch إلى مجموعات GPU
19 يوليو: llama3-s-2024-07-19 يفهم الصوت الاصطناعي بنتائج محدودة
1 يوليو: أظهر llama3-s-2024-07-08 خسارة متقاربة (1.7) مع بيانات محدودة
Ichigo هو مشروع بحث مفتوح. نحن نبحث عن متعاونين، ومن المرجح أن نتجه نحو التعهيد الجماعي لمجموعات بيانات الكلام في المستقبل.
اطلع على هذا الكمبيوتر الدفتري لتجربة أحدث طراز لدينا:
للحصول على معلومات مفصلة حول الجيل الاصطناعي، يرجى الرجوع إلى دليل الجيل الاصطناعي.
أولاً استنساخ الريبو من جيثب:
git clone --recurse-submodules https://github.com/homebrewltd/llama3-s.git
بنية المجلد هي كما يلي:
Ichigo ├── HF_Trainer # HF training code (deprecated) ├── synthetic_data # Synthetic data generation pipeline ├── configs # Audio pipeline configs ├── audio_to_audio # Parler audio (.wav) to semantic tokens ├── synthetic_generation_config # TTS semantic tokens ├── scripts # Setup scripts for Runpod ├── torchtune # Submodule: our fork of fsdp with checkpointing ├── model_zoo # Model checkpoints │ ├── LLM │ │ ├── Meta-Llama-3-8B-Instruct │ │ ├── Meta-Llama-3-70B-Instruct ├── demo # Selfhost this demo (vllm) ├── inference # Google Colab
تثبيت التبعيات
python -m venv hf_trainer chmod +x scripts/install.sh ./scripts/install.sh
أعد تشغيل الصدفة الآن
chmod +x scripts/setup.sh ./scripts/setup.sh source myenv/bin/activate
تسجيل المعانقة
huggingface-cli login --token=
تمرين
export CUTLASS_PATH="cutlass" export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch --config_file ./accelerate_config.yaml train.py
تثبيت الحزمة
python -m venv torchtune pip install torch torchvision tensorboard cd ./torchtune pip install -e .
يمكنك أيضًا تنزيل النموذج باستخدام اللحن:
tune download homebrewltd/llama3.1-s-whispervq-init --hf-token--output-dir ../model_zoo/llama3.1-s-whispervq-init --ignore-patterns "original/consolidated*"
قم بإعداد مجموعة البيانات من مسار HF عن طريق تغيير المسار وتغيير اسم النموذج في ملف YAML التالي.
nano torchtune/recipes/configs/jan-llama3-s/8B_full.yaml
تدريب وحدات معالجة الرسومات المتعددة (1-8 وحدات معالجة رسومات مدعومة)
tune run --nproc_per_node 4 full_finetune_fsdp2 --config recipes/configs/jan-llama3-1-s/8B_full.yaml
للحصول على تعليمات حول كيفية الاستضافة الذاتية للعرض التوضيحي لواجهة مستخدم ويب Ichigo باستخدام Docker، يرجى زيارة: العرض التوضيحي لـ Ichigo. لتجربة العرض التوضيحي الخاص بنا على وحدة معالجة رسومات RTX 4090 واحدة، يمكنك الانتقال مباشرة إلى: https://ichigo.homebrew.ltd.
نحن نقدم رمزًا للمستخدمين لإنشاء عرض توضيحي لواجهة مستخدم الويب. يرجى اتباع التعليمات أدناه:
python -m venv demo source demo/bin/activate # First install all required packages pip install --no-cache-dir -r ./demo/requirements.txt
ثم قم بتشغيل الأمر أدناه لبدء تشغيل عرض Gradio محليًا. يمكنك إضافة المتغيرات use-4bit
و use-8bit
للاستخدام الكمي:
python -m demo.app --host 0.0.0.0 --port 7860 --max-seq-len 1024
يمكنك أيضًا استضافة عرض توضيحي باستخدام vLLM للاستدلال بشكل أسرع ولكنه لا يدعم إخراج البث:
python -m demo.app_vllm
وبدلاً من ذلك، يمكنك بسهولة تجربة العرض التوضيحي الخاص بنا على HuggingFace؟
@misc{chameleonteam2024chameleonmixedmodalearlyfusionfoundation, title={Chameleon: نماذج مؤسسة الاندماج المبكر المختلطة المشروطة}, المؤلف={فريق الحرباء}, العام={2024}, eprint={2405.09818}, archivePrefix={arXiv}, PrimaryClass={cs.CL}, Journal={arXiv preprint}}@misc{zhang2024adamminiusefewerlearning, title={Adam- mini: استخدم معدلات تعلم أقل لكسب المزيد}، المؤلف={Yushun Zhang وCongliang Chen وZiniu Li وTian Ding وChenwei Wu وYinyu Ye وZhi-Quan Luo and Ruoyu Sun}، year={2024}، eprint={2406.16793}، archivePrefix={arXiv}، basicClass= {cs.LG}, Journal={arXiv preprint}}@misc{defossez2022highfi, title={ضغط الصوت العصبي عالي الدقة}، المؤلف={Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi}, year= {2022}، eprint={2210.13438}، archivePrefix={arXiv}، Journal={arXiv preprint}}@misc{WhisperSpeech، title={WhisperSpeech: نظام تحويل النص إلى كلام مفتوح المصدر تم إنشاؤه بواسطة عكس Whisper}، المؤلف={Collabora and LAION}، السنة={2024}، url={https://github.com/collabora/WhisperSpeech}، note={مستودع GitHub}}
Torchtune: قاعدة التعليمات البرمجية التي بنينا عليها
تسريع: مكتبة لسهولة استخدام التدريب الموزع
WhisperSpeech: نموذج تحويل النص إلى كلام لتوليد الصوت الاصطناعي
Encodec: برنامج ترميز صوتي عصبي عالي الدقة لضغط الصوت بكفاءة
Llama3: عائلة النماذج التي اعتمدنا عليها والتي تتمتع بقدرات لغوية مذهلة !!!