في الآونة الأخيرة، حقق الباحثون في جامعة فودان تقدمًا كبيرًا وأطلقوا بنجاح نموذجًا جديدًا واسع النطاق للغة الكلام، SpeechGPT-Gen. يبلغ حجم المعلمة 8 مليار ويتمتع بأداء ممتاز في مجالات تحويل النص إلى كلام وتحويل الكلام والحوار الصوتي. وتأتي كفاءته العالية من طريقة إنشاء سلسلة المعلومات المبتكرة. يضع هذا البحث علامة فارقة جديدة لتطوير تكنولوجيا الذكاء الاصطناعي الصوتي ويوفر دعمًا فنيًا قويًا لتطبيقات أكثر ذكاءً في المستقبل.
أفاد موقع Webmaster Home أن الباحثين في جامعة فودان أطلقوا SpeechGPT-Gen، وهو نموذج لغة واسع النطاق بمعلمة 8B يتميز بكفاءة عالية في نمذجة المعلومات الدلالية والإدراكية. يُظهر النموذج أداءً ممتازًا وقابلية للتوسع في تطبيقات متعددة مثل تحويل النص إلى كلام بدون لقطة، وتحويل الكلام، والحوار الصوتي. تم اعتماد طريقة سلسلة توليد المعلومات (CoIG) لحل مشكلة عدم الكفاءة في أساليب توليد الكلام التقليدية. بالإضافة إلى ذلك، يستخدم النموذج المعلومات الدلالية كأولية في مطابقة التدفق، مما يحسن كفاءة وجودة مخرجات النموذج.
يمثل ظهور نموذج SpeechGPT-Gen تقدمًا كبيرًا في تكنولوجيا الذكاء الاصطناعي للكلام. توفر كفاءتها العالية وقابليتها للتوسع إمكانية المزيد من سيناريوهات التطبيق في المستقبل، ومن الجدير التطلع إلى المزيد من تطبيقها وتطويرها في مختلف المجالات، وأعتقد أن نتائج بحثية أكثر إثارة للدهشة ستظهر في المستقبل.