เมื่อเร็วๆ นี้ ทีม AGI ของ Amazon ได้เปิดตัว BASE TTS ซึ่งเป็นโมเดลการอ่านออกเสียงข้อความที่มีพารามิเตอร์ 98 พันล้านพารามิเตอร์ซึ่งได้รับการฝึกฝนโดยใช้ข้อมูลการบันทึก 100,000 ชั่วโมง ปัจจุบันเป็นโมเดลที่ใหญ่ที่สุดในประเภทเดียวกัน การเปิดตัวโมเดลนี้ถือเป็นความก้าวหน้าครั้งสำคัญของเทคโนโลยีการอ่านออกเสียงข้อความ เป้าหมายของทีมคือการใช้โมเดลนี้กับแอปพลิเคชันการเรียนรู้เพื่อปรับปรุงคุณภาพเสียงของมนุษย์ในแอปพลิเคชันการอ่านออกเสียงข้อความ
ทีม Amazon AGI เปิดตัว BASE TTS ซึ่งเป็นโมเดลการอ่านออกเสียงข้อความที่ใหญ่ที่สุดเท่าที่เคยมีมา ด้วยพารามิเตอร์ 98 พันล้านพารามิเตอร์ และฝึกฝนโดยใช้ข้อมูลการบันทึก 100,000 ชั่วโมง ทีมงานวางแผนที่จะใช้โมเดลนี้ในแอปพลิเคชันการเรียนรู้เพื่อปรับปรุงคุณภาพเสียงของมนุษย์ในแอปพลิเคชันการอ่านออกเสียงข้อความ
การเปิดตัวโมเดล BASE TTS แสดงให้เห็นถึงความแข็งแกร่งของ Amazon ในด้านปัญญาประดิษฐ์และวิสัยทัศน์สำหรับเทคโนโลยีเสียงในอนาคต เป็นการประกาศถึงการมาถึงของเสียงประดิษฐ์ที่เป็นธรรมชาติและสมจริงมากขึ้น ซึ่งนำความเป็นไปได้ที่สมบูรณ์ยิ่งขึ้นมาสู่สถานการณ์การใช้งานต่างๆ ในอนาคต เราคาดว่า BASE TTS จะมีบทบาทในสาขาต่างๆ มากขึ้น และมอบบริการที่สะดวกและดียิ่งขึ้นแก่ผู้ใช้