علم محرر Downcodes أن أحدث نموذج لمعالجة الكلام Fish Agent V0.13B الذي أصدرته شركة Fish Audio Company قد أحدث ثورة في مجال خطاب الذكاء الاصطناعي من خلال قدراته الفعالة والدقيقة في توليد ومعالجة الكلام. يعد هذا النموذج جيدًا بشكل خاص في محاكاة واستنساخ الأصوات المختلفة، مما يحسن بشكل كبير دقة وسرعة استجابة المساعد الصوتي AI، ويمنح المستخدمين تجربة تفاعل صوتي أكثر طبيعية وسلاسة. تتيح هندسته المبتكرة استنساخ الصوت "الفوري" وتحويل النص إلى كلام مع وقت تحويل يبلغ 200 مللي ثانية فقط، مما يمكنه من إظهار إمكانات كبيرة في تطبيقات توليد الصوت في الوقت الفعلي مثل المساعدين الصوتيين وخدمة العملاء الآلية.
بفضل هذه البنية المبتكرة، يستطيع Fish Agent V0.13B إنشاء كلام عالي الجودة بسرعة وبشكل طبيعي، وتحقيق استنساخ الكلام "الفوري" وتحويل النص إلى كلام، مع وقت تحويل من النص إلى الصوت (TTFA) قدره 200 مللي ثانية فقط. تجعل هذه الميزة مثالية لسيناريوهات التطبيقات التي تتطلب إنشاء الكلام في الوقت الفعلي، مثل المساعدين الصوتيين وخدمة العملاء الآلية والسيناريوهات الأخرى التي تتطلب تعليقات صوتية سريعة.
يدعم نموذج Fish Agent V0.13B لغات متعددة، بما في ذلك الإنجليزية والصينية والألمانية واليابانية والفرنسية والإسبانية والكورية والعربية، وتم تدريبه باستخدام ما يقرب من 700000 ساعة من البيانات الصوتية متعددة اللغات. وهذا يعني أنه يمكنه التعامل مع لغات وسياقات متعددة وتوليد خطاب أكثر طبيعية وأقرب إلى ما ينطقه الشخص الحقيقي.
بالإضافة إلى إمكانية إنشاء تحويل الكلام إلى كلام وتحويل النص إلى كلام، يتضمن Fish Agent V0.13B أيضًا الميزات الرئيسية التالية:
استنساخ الصوت بدون عينة: يمكن تحقيق استنساخ الصوت دون تدريب.
معلمات 3B مبسطة: استخدم 3 مليارات معلمة لتسهيل التطوير.
دعم إدخال النص والصوت: طرق إدخال متعددة مرنة.
في الوقت الحالي، قامت شركة Fish Audio بفتح المصدر لنموذج Fish Agent V0.13B وقدمت نسخة تجريبية أولية ليتمكن المستخدمون من تجربتها. سيؤدي إصدار هذا النموذج إلى تعزيز تطوير تقنية الصوت بالذكاء الاصطناعي وتوفير المزيد من الإمكانيات لتطبيقات مثل المساعدين الصوتيين والبشر الافتراضيين.
جيثب: https://github.com/fishaudio/fish-speech
العرض التوضيحي لعامل الأسماك: https://huggingface.co/spaces/fishaudio/fish-agent
تنزيل النموذج: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
التقرير الفني: https://arxiv.org/abs/2411.01156
يمثل الإصدار المفتوح المصدر لـ Fish Agent V0.13B علامة فارقة جديدة في تقنية الذكاء الاصطناعي الصوتية، حيث يوفر للمطورين والباحثين أدوات قوية، ويشير أيضًا إلى أن تطبيقات الذكاء الاصطناعي الصوتية ستكون أكثر ثراءً وأكثر ملاءمة في المستقبل. نحن نتطلع إلى أن تقدم شركة Fish Audio المزيد من الابتكارات في مجال صوت الذكاء الاصطناعي!