اقرأ هذا باللغة الإنجليزية
GLM-4-Voice هو نموذج كلام شامل أطلقته شركة Zhipu AI. يمكن لـ GLM-4-Voice فهم الأصوات الصينية والإنجليزية وتوليدها مباشرة، وإجراء محادثات صوتية في الوقت الفعلي، ويمكنه تغيير العاطفة والتنغيم والسرعة واللهجة وسمات الصوت الأخرى وفقًا لتعليمات المستخدم.
يتكون GLM-4-Voice من ثلاثة أجزاء:
GLM-4-Voice-Tokenizer: من خلال إضافة تقنية القياس الكمي الموجه إلى جزء التشفير من Whisper والتدريب الخاضع للإشراف على بيانات ASR، يتم تحويل الإدخال الصوتي المستمر إلى رموز مميزة منفصلة. في المتوسط، يجب تمثيل الصوت فقط بـ 12.5 رمزًا منفصلاً في الثانية.
GLM-4-Voice-Decoder: وحدة فك ترميز الكلام التي تدعم المنطق المتدفق ويتم تدريبها استنادًا إلى بنية نموذج مطابقة التدفق الخاصة بـ CosyVoice لتحويل رموز الكلام المنفصلة إلى مخرجات كلام مستمرة. هناك حاجة إلى ما لا يقل عن 10 رموز صوتية للبدء في الإنشاء، مما يقلل من تأخير المحادثة من طرف إلى طرف.
GLM-4-Voice-9B: استنادًا إلى GLM-4-9B، يتم إجراء التدريب المسبق ومواءمة طرائق الصوت لفهم وإنشاء الرموز الصوتية المنفصلة.
فيما يتعلق بالتدريب المسبق، ومن أجل التغلب على الصعوبتين المتمثلتين في معدل ذكاء النموذج والتعبير الاصطناعي في وضع الكلام، قمنا بفصل مهمة Speech2Speech إلى "إنشاء رد نصي بناءً على صوت المستخدم" و"توليف خطاب بناءً على صوت المستخدم". الرد النصي وخطاب المستخدم" تم تصميم مهمتين وهدفين للتدريب المسبق لتجميع بيانات النص والكلام المتداخلة بناءً على بيانات التدريب المسبق للنص والبيانات الصوتية غير الخاضعة للرقابة للتكيف مع نموذجي المهام هذين. استنادًا إلى النموذج الأساسي لـ GLM-4-9B، تم تدريب GLM-4-Voice-9B مسبقًا بملايين الساعات من الصوت ومئات المليارات من الرموز المميزة للبيانات الصوتية النصية المتداخلة، كما يتمتع بفهم صوتي قوي ونمذجة . قدرة.
من حيث المحاذاة، من أجل دعم الحوار الصوتي عالي الجودة، قمنا بتصميم بنية تفكير متدفقة: وفقًا لصوت المستخدم، يمكن لـ GLM-4-Voice إخراج المحتوى بالتناوب في وضعين: النص والصوت بتنسيق دفق يتم تمثيل الوضع الصوتي بواسطة النص كمرجع لضمان الجودة العالية لمحتوى الرد، ويتم إجراء التغييرات الصوتية المقابلة وفقًا لمتطلبات الأمر الصوتي للمستخدم، ولا يزال لديه القدرة على النموذج الشامل مع الاحتفاظ به معدل الذكاء لنموذج اللغة إلى أقصى حد، وفي الوقت نفسه لديه زمن وصول منخفض، فهو يحتاج فقط إلى إخراج ما لا يقل عن 20 رمزًا لتجميع الكلام.
سيتم إصدار تقرير فني أكثر تفصيلاً في وقت لاحق.
نموذج | يكتب | تحميل |
---|---|---|
GLM-4-Voice-Tokenizer | رمز الكلام | المعانقة؟ |
GLM-4-صوت-9B | نموذج الدردشة | المعانقة؟ |
GLM-4-جهاز فك التشفير الصوتي | فك تشفير الكلام | المعانقة؟ |
نحن نقدم عرضًا تجريبيًا على الويب يمكن تشغيله مباشرةً. يمكن للمستخدمين إدخال الصوت أو النص، وسيقدم النموذج استجابات صوتية ونصية.
قم أولاً بتنزيل المستودع
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voicecd GLM-4-Voice
ثم قم بتثبيت التبعيات. يمكنك أيضًا استخدام الصورة zhipuai/glm-4-voice:0.1
التي نقدمها لتخطي هذه الخطوة.
تثبيت النقطة -r متطلبات.txt
نظرًا لأن نموذج وحدة فك التشفير لا يدعم التهيئة من خلال transformers
، فيجب تنزيل نقطة التفتيش بشكل منفصل.
# تنزيل نموذج git، يرجى التأكد من تثبيت git-lfsgit lfs install استنساخ بوابة https://huggingface.co/THUDM/glm-4-voice-decoder
ابدأ الخدمة النموذجية
بايثون model_server.py - المضيف المحلي - مسار النموذج THUDM/glm-4-voice-9b - المنفذ 10000 - dtype bfloat16 - جهاز cuda:0
إذا كنت بحاجة إلى التمهيد بدقة Int4، فقم بتشغيل
بايثون model_server.py - المضيف المحلي - مسار النموذج THUDM/glm-4-voice-9b - المنفذ 10000 - dtype int4 - جهاز cuda:0
سيقوم هذا الأمر بتنزيل glm-4-voice-9b
تلقائيًا. إذا لم تكن ظروف الشبكة جيدة، فيمكنك أيضًا تنزيل المسار المحلي وتحديده يدويًا من خلال --model-path
.
ابدأ خدمة الويب
python web_demo.py --tokenizer-path THUDM/glm-4-voice-tokenizer --model-path THUDM/glm-4-voice-9b --flow-path ./glm-4-voice-decoder
يمكنك الوصول إلى العرض التوضيحي على الويب على http://127.0.0.1:8888.
يقوم هذا الأمر تلقائيًا بتنزيل glm-4-voice-tokenizer
و glm-4-voice-9b
. يرجى ملاحظة أنه يجب تنزيل glm-4-voice-decoder
يدويًا.
إذا لم تكن ظروف الشبكة جيدة، فيمكنك تنزيل هذه النماذج الثلاثة يدويًا ثم تحديد المسار المحلي من خلال --tokenizer-path
و --flow-path
و --model-path
.
تشغيل الصوت المتدفق في Gradio غير مستقر. ستكون جودة الصوت أعلى عند النقر عليها في مربع الحوار بعد اكتمال عملية الإنشاء.
نقدم بعض أمثلة المحادثة على GLM-4-Voice، بما في ذلك التحكم في العواطف وتغيير سرعة الكلام وتوليد اللهجات وما إلى ذلك.
أرشدني إلى الاسترخاء بصوت ناعم
التعليق على مباريات كرة القدم بصوت متحمس
أخبر قصة شبح بصوت حزين
تعرّف على مدى برودة الشتاء باللهجة الشمالية الشرقية
قل "تناول العنب دون بصق قشر العنب" بلهجة تشونغتشينغ
قل اعصار اللسان بلهجة بكين
تحدث بشكل أسرع
أسرع
يأتي جزء من الكود الخاص بهذا المشروع من:
صوت مريح
محولات
جي إل إم-4
يحتاج استخدام أوزان طراز GLM-4 إلى اتباع بروتوكول النموذج.
يتبع رمز هذا المستودع مفتوح المصدر بروتوكول Apache 2.0.