فاز نموذج تحويل النص إلى كلام الصغير Kokoro-TTS بالمركز الأول في تصنيفات TTS - مقالة AI

الكاتب：Eve Cole وقت التحديث：2025-01-30 01:16:02

في الآونة الأخيرة، تم إصدار نموذج جديد لتركيب الكلام يسمى Kokoro على منصة Hugging Face، مما جذب اهتمامًا واسع النطاق. يستخدم هذا النموذج 82 مليون معلمة فقط وأقل من 100 ساعة من البيانات الصوتية لتحقيق نتائج قابلة للمقارنة بالنماذج التي تحتوي على معلمات أكثر بكثير منه، مما يجعله من بين الأفضل في مجال تحويل النص إلى كلام (TTS). إن عملية التدريب الفعالة والاستخدام المريح يجعلها طفرة في مجال تركيب الكلام. ستقدم هذه المقالة بالتفصيل الأداء وعملية التدريب والاستخدام والقيود الخاصة بنموذج Kokoro.

في ظل التطور السريع للذكاء الاصطناعي، تحظى تكنولوجيا تركيب الكلام باهتمام متزايد. في الآونة الأخيرة، تم إصدار أحدث نموذج لتركيب الكلام يسمى Kokoro رسميًا على منصة Hugging Face، ويحتوي النموذج على 82 مليون معلمة، مما يمثل علامة فارقة مهمة في مجال تركيب الكلام.

احتل Kokoro v0.19 المرتبة الأولى في قائمة صدارة TTS (تحويل النص إلى كلام) في الأسابيع التي سبقت إصداره، متفوقًا حتى على النماذج الأخرى التي تحتوي على المزيد من المعلمات. في الإعداد الأحادي، حقق هذا النموذج نتائج مماثلة لنماذج مثل المعلمة 467M XTTS v2 والمعلمة 1.2B MetaVoice باستخدام أقل من 100 ساعة من البيانات الصوتية. يوضح هذا الإنجاز أن العلاقة بين أداء نماذج تركيب الكلام التقليدية وكمية المعلمات والحسابات والبيانات قد تكون أكثر أهمية مما كان متوقعًا سابقًا.

فيما يتعلق بالاستخدام، يحتاج المستخدمون فقط إلى تشغيل بضعة أسطر من التعليمات البرمجية في Google Colab لتحميل النموذج وحزمة الصوت وإنشاء صوت عالي الجودة. يدعم Kokoro حاليًا اللغة الإنجليزية الأمريكية والإنجليزية البريطانية، ويوفر حزمًا صوتية متعددة للمستخدمين للاختيار من بينها.

تستخدم عملية التدريب في Kokoro مثيل Vast.ai's A10080GB vRAM، وتكلفة الإيجار منخفضة نسبيًا، مما يضمن عملية تدريب فعالة. تم تدريب النموذج بأكمله باستخدام أقل من 20 فترة تدريب وأقل من 100 ساعة من البيانات الصوتية. تستخدم نماذج Kokoro البيانات الصوتية ذات النطاق العام بالإضافة إلى الصوت من التراخيص المفتوحة الأخرى في التدريب، مما يضمن امتثال البيانات.

على الرغم من أن أداء Kokoro جيد في تركيب الكلام، إلا أنه غير قادر حاليًا على دعم استنساخ الصوت بسبب القيود في بيانات التدريب والهندسة المعمارية الخاصة به، وتركز بيانات التدريب الرئيسية على القراءات والروايات الطويلة بدلاً من الحوار.

الموديل: https://huggingface.co/hexgrad/Kokoro-82M

الخبرة: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

تسليط الضوء على:

Kokoro-82M هو نموذج لتركيب الكلام تم إصداره حديثًا ويحتوي على 82 مليون معلمة ويدعم مجموعة متنوعة من حزم الكلام.

يتمتع هذا النموذج بأداء ممتاز في مجال تحويل النص إلى كلام (TTS) وقد احتل المرتبة الأولى في التصنيف العالمي، ولم يستخدم سوى أقل من 100 ساعة من البيانات الصوتية للتدريب.

يتم تدريب نماذج Kokoro باستخدام البيانات المرخصة المفتوحة لضمان الامتثال، ولكن توجد حاليًا بعض القيود الوظيفية.

وبشكل عام، يُظهر نموذج كوكورو إمكانات مثيرة للإعجاب في مجال تركيب الكلام، كما أن تدريبه الفعال وأدائه الممتاز يستحقان الاهتمام. على الرغم من أنه لا تزال هناك بعض القيود في الوقت الحاضر، أعتقد أنه مع التطوير المستمر للتكنولوجيا، سيكون لدى Kokoro سيناريوهات تطبيق أوسع في المستقبل.