Doubao เปิดตัวโมเดลการพูดแบบเรียลไทม์ขนาดใหญ่พร้อมบทความภาษาจีนชั้นหนึ่ง Shuangshang Online - AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-28 11:48:02

โมเดลคำพูดแบบเรียลไทม์ล่าสุดที่ออกโดย Doubao Company ประสบความสำเร็จอย่างก้าวกระโดดในด้านบทสนทนาภาษาจีน โดยเปิดตัวอย่างเต็มรูปแบบในแอป Doubao เวอร์ชันปีใหม่ 7.2.0 แบบจำลองนี้ผสานรวมความเข้าใจและการสร้างคำพูดอย่างลึกซึ้งเพื่อสร้างระบบบทสนทนาคำพูดตั้งแต่ต้นทางถึงปลายทาง ซึ่งปรับปรุงการแสดงออกของคำพูด การควบคุม และการยอมรับทางอารมณ์อย่างมีนัยสำคัญ นอกจากนี้ยังมีฟังก์ชันต่างๆ เช่น เวลาแฝงต่ำและขัดจังหวะการสนทนาได้ตลอดเวลา ซึ่งก่อให้เกิดประโยชน์มากขึ้น แก่ผู้ใช้ ประสบการณ์การโต้ตอบที่เป็นธรรมชาติและราบรื่น การอัปเดตนี้ยังนำเสนอฟังก์ชันการโทรด้วยเสียงแบบเรียลไทม์ใหม่ ซึ่งรองรับการปรับรายละเอียดการสนทนาอย่างยืดหยุ่น การเลียนแบบเสียงและภาษาถิ่นที่หลากหลาย และแม้แต่ความสามารถในการร้องเพลงบางเพลง ซึ่งเพิ่มความสมจริงของบทสนทนาระหว่างมนุษย์กับเครื่องจักร

เมื่อเร็วๆ นี้ Doubao Company ได้ประกาศเปิดตัวโมเดลคำพูดแบบเรียลไทม์ใหม่ โดยอ้างว่าสามารถ "เป็นผู้นำ" ในการสนทนาภาษาจีนได้ ซึ่งถือเป็นการปรับปรุงขีดความสามารถการสนทนาของ AI อย่างมีนัยสำคัญ โมเดลนี้เปิดเต็มรูปแบบในแอป Doubao (เวอร์ชันหมายเลข 7.2.0 New Year Edition) ทำให้ผู้ใช้ได้รับประสบการณ์การสื่อสารด้วยเสียงที่สมบูรณ์และสมจริงยิ่งขึ้น

ตามรายงาน โมเดลคำพูดแบบเรียลไทม์ขนาดใหญ่ของ Doubao ตระหนักถึงการบูรณาการเชิงลึกของการทำความเข้าใจคำพูดและการสร้าง ก่อให้เกิดระบบบทสนทนาคำพูดจากต้นทางถึงปลายทาง ความก้าวหน้าทางเทคโนโลยีนี้ทำให้โมเดลทำงานได้ดีมากในแง่ของการแสดงออกทางเสียง การควบคุม และการยอมรับทางอารมณ์ โดยมีเวลาแฝงต่ำและสามารถขัดจังหวะการสนทนาได้ตลอดเวลา ซึ่งช่วยปรับปรุงประสบการณ์การโต้ตอบของผู้ใช้ได้อย่างมาก เจ้าหน้าที่ระบุว่าเทคโนโลยีนี้ไม่เพียงแต่ปรับปรุง "ไอคิว" เท่านั้น แต่ยังมีความฉลาดทางอารมณ์ออนไลน์อีกด้วย ทำให้สามารถเข้าใจและแสดงอารมณ์ได้ดียิ่งขึ้น

การอัปเดตนี้ยังรวมถึงฟังก์ชันการโทรด้วยเสียงแบบเรียลไทม์ ซึ่งอาศัยรุ่นใหญ่ล่าสุดของ Doubao และสามารถปรับรายละเอียดได้อย่างยืดหยุ่น เช่น จังหวะการสนทนา เสียง ระดับเสียง และเสียงลมหายใจในสถานการณ์ต่างๆ นอกจากนี้ ฟังก์ชันเสียงใหม่ยังสามารถเลียนแบบเสียงต่างๆ รองรับหลายภาษาและการสนทนาภาษาอังกฤษ และยังสามารถร้องเพลงบางเพลงได้อีกด้วย ทั้งหมดนี้ได้ยกระดับความสมจริงของบทสนทนาระหว่างมนุษย์กับเครื่องจักรขึ้นอีกระดับ เกือบจะถึงจุดที่ "ยากที่จะแยกแยะระหว่างมนุษย์กับเครื่องจักร"

ทีมวิจัยและพัฒนาของ Doubao ระบุว่าเทคโนโลยีใหม่นี้ใช้เฟรมเวิร์กแบบ end-to-end และใช้วิธีการดั้งเดิมเพื่อผสานรวมรูปแบบคำพูดและข้อความอย่างล้ำลึกสำหรับการสร้างแบบจำลองแบบครบวงจร การออกแบบดังกล่าวไม่เพียงแต่เพิ่มประสิทธิภาพกระบวนการรู้จำเสียงและการสร้างคำพูดเท่านั้น แต่ยังช่วยให้ AI มี "จิตวิญญาณ" ที่สมบูรณ์ยิ่งขึ้น เพื่อให้สามารถสื่อสารกับมนุษย์ได้ดียิ่งขึ้น

การเปิดตัวโมเดลเสียงขนาดใหญ่แบบเรียลไทม์ของ Doubao ในด้านบทสนทนาด้วยเสียงภาษาจีน จะช่วยให้ผู้ใช้ได้รับประสบการณ์โต้ตอบที่ไม่เคยมีมาก่อน และส่งเสริมการพัฒนาเทคโนโลยีเสียงอัจฉริยะ

การเปิดตัวโมเดลเสียงแบบเรียลไทม์ Doubao ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการโต้ตอบด้วยเสียงอัจฉริยะ และประสิทธิภาพที่โดดเด่นในด้านบทสนทนาภาษาจีนก็น่าตื่นเต้นเช่นกัน ในอนาคต ด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่อง ฉันเชื่อว่าโมเดลคำพูดที่คล้ายกันจะนำความสะดวกสบายและความประหลาดใจมาสู่ชีวิตของผู้คนมากขึ้น