أطلقت أمازون BASE TTS، أكبر نموذج لتحويل النص إلى كلام على الإطلاق

الكاتب：Eve Cole وقت التحديث：2025-02-02 06:16:01

أصدر فريق AGI التابع لشركة Amazon مؤخرًا BASE TTS، وهو نموذج لتحويل النص إلى كلام يحتوي على 98 مليار معلمة تم تدريبها باستخدام 100000 ساعة من تسجيل البيانات وهو حاليًا أكبر نموذج من نوعه. يمثل إصدار هذا النموذج تقدمًا كبيرًا في تقنية تحويل النص إلى كلام، ومن المتوقع أن يؤدي العدد الكبير من المعلمات وبيانات التدريب الضخمة إلى تحسين طبيعة تركيب الكلام وتجسيمه بشكل كبير وتوفير تجربة صوتية أفضل للمستخدمين. هدف الفريق هو تطبيق هذا النموذج على تطبيقات التعلم لزيادة تحسين جودة الأصوات البشرية في تطبيقات تحويل النص إلى كلام.

أصدر فريق Amazon AGI BASE TTS، وهو أكبر نموذج لتحويل النص إلى كلام على الإطلاق، مع 98 مليار معلمة وتم تدريبه باستخدام 100000 ساعة من تسجيل البيانات. ويخطط الفريق لاستخدام هذا النموذج في تطبيقات التعلم لتحسين جودة الأصوات البشرية في تطبيقات تحويل النص إلى كلام.

يُظهر إصدار نموذج BASE TTS قوة أمازون القوية في مجال الذكاء الاصطناعي ورؤيتها لتكنولوجيا الصوت المستقبلية، وهو يبشر بقدوم أصوات صناعية أكثر طبيعية وواقعية، مما يوفر إمكانيات أكثر ثراءً لسيناريوهات التطبيقات المختلفة. في المستقبل، يمكننا أن نتوقع أن تلعب BASE TTS دورًا في المزيد من المجالات وتزويد المستخدمين بخدمات أكثر ملاءمة وأفضل.