أحدث نموذج تركيب الكلام Fish Speech 1.5 الذي تم إصداره حديثًا من شركة Fish Audio عاصفة في مجال تركيب الكلام. لم يحقق هذا النموذج تحسينات كبيرة في الدقة والاستقرار وقدرات اللغات المشتركة فحسب، بل إن الأمر الأكثر إثارة للإعجاب هو أنه أضاف دعمًا لخمس لغات جديدة وسيطلق قريبًا وظيفة محادثة سلسة في الوقت الفعلي، مما يوفر تجربة غير مسبوقة فوائد للمستخدمين. ويستمد أدائها القوي من أكثر من مليون ساعة من بيانات التدريب متعددة اللغات، وقد حققت المركز الثاني في تصنيف TTS-Arena المجهول، ولا يمكن الاستهانة بقوتها. ستلقي هذه المقالة نظرة متعمقة على ميزات وفوائد Fish Speech 1.5.
أطلقت شركة Fish Audio مؤخرًا منتجًا رائجًا - Fish Speech1.5. هذا النموذج الجديد لتركيب الكلام هو ببساطة "صوتي" غامر، ولا يتفوق فقط على سابقاته من حيث الدقة والاستقرار وقدرات اللغات المتعددة. بالإضافة إلى ذلك، سيتم إطلاق Fish Speech 1.5 قريبًا - وظيفة محادثة سلسة في الوقت، مما يسمح للمستخدمين باختيار مكتبة صوتية للدردشة التفاعلية في أي وقت وفي أي مكان.
"معرفة" Fish Speech1.5 عميقة جدًا، فقد "استهلكت" أكثر من مليون ساعة من بيانات التدريب متعددة اللغات لتطوير مهاراتها الفريدة، وهي تتقن حاليًا 13 لغة بما في ذلك الإنجليزية والصينية واليابانية . هذا ليس تفاخرًا، لقد حصلت على المركز الثاني في تصنيف TTS-Arena المجهول!
يمكن أيضًا تسمية وظيفة استنساخ الصوت لـ Fish Speech1.5 بـ "Flash"، ووقت التأخير أقل من 150 مللي ثانية، ويتم إنشاؤها في الوقت الفعلي، والأهم من ذلك، أن Fish Speech1.5 أيضًا مفتوح المصدر بسخاء للنموذج المُدرب مسبقًا، بغض النظر عما إذا كنت تريد "ضبط" نفسك في المنزل أو اختيار خدمة سحابية، يمكنك القيام بذلك بسهولة!
الميزات الرئيسية:
تركيب الكلام ذو العينة الصفرية والعينات القليلة: ما عليك سوى الاستماع إلى 10 إلى 30 ثانية من عينات الصوت، وسيكون قادرًا على تقليدها بشكل مثالي وإنشاء مخرجات تركيب الكلام عالية الجودة. إنه مثل عرض تقليد فائق، طالما أنك تجرؤ على "العرض"، فهو يجرؤ على "التعلم"!
دعم متعدد اللغات وعبر اللغات: هل ما زلت قلقًا بشأن الحواجز اللغوية؟ لقد ساعدك Fish Speech1.5 بالفعل على إزالة العوائق! ما عليك سوى نسخ ما تريد قوله ولصقه في مربع الإدخال، ويمكن القيام بذلك بسهولة. وهو يدعم حاليًا اللغة الإنجليزية واليابانية والكورية والصينية والفرنسية والألمانية والعربية والإسبانية. الآن، يمكنك أخيرًا الدردشة مع الأصدقاء من جميع أنحاء العالم!
لا يوجد اعتماد على الصوتيات: غالبًا ما تعتمد نماذج تركيب الكلام التقليدية على الصوتيات، لكن Fish Speech1.5 يتبع نهجًا مختلفًا، فهو يتمتع بقدرات تعميمية فائقة ويمكنه معالجة النص في أي نص لغة.
دقة عالية: بالنسبة لمقالة باللغة الإنجليزية مدتها 5 دقائق، فإن معدل الخطأ في Fish Speech1.5 يصل إلى 2%، وهو رقم مذهل للغاية!
سريع: يعتبر Fish Speech1.5 أيضًا سريعًا جدًا على كمبيوتر محمول Nvidia RTX4060، ويبلغ معامله في الوقت الفعلي حوالي 1:5، بينما على Nvidia RTX4090، يصل معامله في الوقت الفعلي إلى 1:15 شعور "الطيران"!
يدعم Fish Speech1.5 أيضًا النشر المحلي:
WebUI: يوفر واجهة مستخدم ويب بسيطة وسهلة الاستخدام، متوافقة مع المتصفحات الرئيسية مثل Chrome وFirefox وEdge، مما يسمح لك بتجربة متعة تركيب الكلام في أي وقت وفي أي مكان.
واجهة المستخدم الرسومية: توفر أيضًا واجهة رسومية PyQt6 يمكنها العمل بسلاسة مع خادم API، وتدعم أنظمة Linux وWindows وmacOS، إنها ببساطة أخبار جيدة لـ "الفرسان الثلاثة"!
سهولة النشر: يمكنك أيضًا نشر Fish Speech1.5 بسهولة على أنظمة Linux وWindows وMacOS، مما يقلل من فقدان السرعة.
عنوان الموقع الرسمي: https://fish.audio/zh-CN/
عنوان المشروع: https://github.com/fishaudio/fish-speech
بشكل عام، بفضل وظائفه القوية وطرق النشر المريحة ومزايا المصدر المفتوح، لا بد أن يجذب Fish Speech 1.5 اهتمامًا واسع النطاق في مجال تركيب الكلام ويجلب للمستخدمين تجربة تفاعل صوتي أكثر ملاءمة وذكاءً. توفر كفاءتها ودقتها ودعمها متعدد اللغات دعمًا فنيًا قويًا لسيناريوهات التطبيقات المختلفة. مرحبا بكم في زيارة الموقع الرسمي وعنوان المشروع لمزيد من المعلومات.