Geely Automobile มีความก้าวหน้าอย่างก้าวกระโดดในด้านการสังเคราะห์เสียงพูด รถรุ่น HAM-TTS ขนาดใหญ่ "Xingrui" ที่พัฒนาขึ้นอย่างอิสระ แซงหน้ามาตรฐานอุตสาหกรรม VALL-E และดึงดูดความสนใจอย่างกว้างขวาง บรรณาธิการของ Downcodes จะอธิบายรายละเอียดเกี่ยวกับข้อดีหลักและผลกระทบในอนาคตของเทคโนโลยีนี้
เมื่อเร็วๆ นี้ Geely Automobile ได้สร้างความก้าวหน้าครั้งใหญ่ในด้านการสังเคราะห์เสียงพูด ประสิทธิภาพของรถยนต์รุ่น HAM-TTS ขนาดใหญ่ที่พัฒนาขึ้นอย่างอิสระนั้นเหนือกว่ามาตรฐานอุตสาหกรรม VALL-E และดึงดูดความสนใจอย่างกว้างขวางในอุตสาหกรรม โมเดล AI ขนาดใหญ่ที่ชื่อว่า Xingrui ได้รับการปรับปรุงที่สำคัญในด้านตัวบ่งชี้สำคัญ เช่น ความแม่นยำในการออกเสียง ความเป็นธรรมชาติ และความคล้ายคลึงกันของผู้พูด
โมเดล HAM-TTS ใช้เทคโนโลยีการสร้างแบบจำลองเสียงแบบลำดับชั้นการอ่านออกเสียงข้อความเป็นคำพูดแบบไม่มีตัวอย่างโดยใช้โทเค็น ซึ่งปรับปรุงประสบการณ์การโต้ตอบของผู้ใช้ในห้องนักบินอัจฉริยะได้อย่างมาก ภายใต้เงื่อนไขพารามิเตอร์ 400 ล้านตัวเดียวกัน อัตราความผิดพลาดของอักขระของโมเดล HAM-TTS ลดลง 1.5% เมื่อเทียบกับ VALL-E และในโมเดลที่สมบูรณ์ซึ่งมีพารามิเตอร์ 800 ล้านตัว อัตราข้อผิดพลาดของอักขระลดลง 2.3% ในแง่ของสไตล์ ความสม่ำเสมอของระดับเสียง และคะแนนโดยรวม โมเดล HAM-TTS ได้รับการปรับปรุงอย่างมีนัยสำคัญถึง 10%
ข้อดีของรุ่น Xingrui ไม่เพียงสะท้อนให้เห็นในตัวบ่งชี้ประสิทธิภาพเท่านั้น แต่การใช้งานจริงยังน่าประทับใจอีกด้วย สามารถรักษาความเสถียรของเสียงของผู้พูดในสถานการณ์ต่างๆ เช่น การเชื่อมโยงอวาตาร์ การนำทางด้วยเสียง และการออกอากาศข่าว และปรับโทนเสียง โทนเสียง การหยุดชั่วคราว และอารมณ์อย่างชาญฉลาดตามสถานการณ์ สิ่งที่คุ้มค่าแก่การกล่าวขวัญก็คือ รุ่นนี้สามารถสลับระหว่างภาษาต่างๆ ได้อย่างราบรื่น รวมถึงภาษาถิ่นและภาษาต่างประเทศ และสามารถสร้างเสียงที่สมบูรณ์ได้ด้วยการป้อนตัวอย่างเพียง 3 วินาที ซึ่งดีกว่าที่ปกติต้องใช้เวลามากกว่า 10 วินาทีในอุตสาหกรรมนี้มาก
ทีมงาน Geely ได้ปรับปรุงประสิทธิภาพของโมเดลอย่างสร้างสรรค์ด้วยการแนะนำการสร้างแบบจำลองเสียงแบบหลายชั้น พวกเขาแก้ไขปัญหาการออกเสียงที่ไม่ถูกต้องและแนะนำตัวทำนายลำดับตัวแปรช่องว่างแฝงและตัวจัดข้อความเพื่อทำให้การจับคู่ข้อความและเสียงแม่นยำยิ่งขึ้น ทำให้คำพูดสังเคราะห์เป็นธรรมชาติและราบรื่นยิ่งขึ้น
ความก้าวหน้าครั้งนี้ไม่เพียงแสดงให้เห็นถึงความแข็งแกร่งด้านการวิจัยและพัฒนาของ Geely ในด้านเทคโนโลยีอัจฉริยะเท่านั้น แต่ยังสะท้อนถึงความทะเยอทะยานของบริษัทในด้าน AI อีกด้วย ระบบโมเดลขนาดใหญ่ Xingrui AI ของ Geely ได้รับการขยายไปยังหลายทิศทาง เช่น โมเดลขนาดใหญ่หลายรูปแบบ และโมเดลขนาดใหญ่ที่ใช้ภาษา ซึ่งวางรากฐานสำหรับเทคโนโลยีรถยนต์อัจฉริยะ ในขณะเดียวกัน พลังการประมวลผลบนคลาวด์โดยรวมของ Geely ก็เพิ่มขึ้นจาก 81 petaflops/วินาทีในปีที่แล้วเป็น 102 petaflops/วินาที ซึ่งแสดงให้เห็นถึงการลงทุนด้านเทคโนโลยีอย่างต่อเนื่อง
จากความสำเร็จในช่วงเริ่มต้นของการใช้พลังงานไฟฟ้า ความก้าวหน้าของ Geely ในสาขาอัจฉริยะได้ให้แนวคิดและความเป็นไปได้ใหม่ๆ สำหรับการพัฒนาอุตสาหกรรมยานยนต์ในอนาคต สิ่งนี้ไม่เพียงแต่กำหนดความเข้าใจของเราใหม่เกี่ยวกับผู้ผลิตรถยนต์แบบดั้งเดิมเท่านั้น แต่ยังบ่งชี้ว่าสติปัญญาจะกลายเป็นส่วนสำคัญของการแข่งขันในอุตสาหกรรมยานยนต์ในอนาคต
ที่อยู่กระดาษ: https://arxiv.org/pdf/2403.05989
ความสำเร็จของ "Xing Rui" ของ Geely ถือเป็นการเติบโตของอุตสาหกรรมยานยนต์ของจีนในด้านปัญญาประดิษฐ์ และความก้าวหน้าทางเทคโนโลยีของ Geely จะส่งผลอย่างมากต่อทิศทางการพัฒนาอัจฉริยะของรถยนต์ในอนาคต เราหวังว่าจะได้รับนวัตกรรมเพิ่มเติมจาก Geely ในด้านปัญญาประดิษฐ์!