เทคโนโลยีการสร้างเสียงล่าสุดของ Google ได้รีเฟรชมาตรฐานอุตสาหกรรมอีกครั้ง เทคโนโลยีการพัฒนานี้ไม่เพียง แต่สร้างการสนทนาที่เป็นธรรมชาติสูงสุด 2 นาทีใน 3 วินาทีเท่านั้น เทคโนโลยีถูกใช้ในผลิตภัณฑ์ Google หลายรายการเช่น Gemini Live และ Project Astra และกำลังเปลี่ยนวิธีการที่ผู้คนโต้ตอบกับผู้ช่วยดิจิทัลและเครื่องมือ AI ทั่วโลก
ในช่วงไม่กี่ปีที่ผ่านมา Google ได้มุ่งเน้นไปที่การวิจัยในด้านการสร้างเสียง แบบจำลองที่พวกเขาพัฒนาสามารถสร้างเสียงที่มีคุณภาพสูงและเป็นธรรมชาติผ่านวิธีการป้อนข้อมูลที่หลากหลายเช่นข้อความการควบคุมจังหวะและเสียงเฉพาะ เมื่อเร็ว ๆ นี้ Google ได้ร่วมมือกับทีมภายในหลาย ๆ คนเพื่อเปิดตัวคุณสมบัติที่สำคัญสองประการ: ภาพรวมเสียงของโน้ตบุ๊กสามารถแปลงเอกสารที่อัปโหลดเป็นบทสนทนาที่ชัดเจน
ความก้าวหน้าเหล่านี้ขึ้นอยู่กับผลการวิจัยก่อนหน้านี้หลายอย่างจาก Google จากตัวแปลงสัญญาณเสียง Neural SoundTream ไปจนถึงกรอบการสร้างแบบจำลองภาษา Audiolm Audio ไปจนถึง Soundstorm ซึ่งสามารถสร้างการสนทนาได้มากกว่า 30 วินาที Google กำลังสร้างสรรค์สิ่งใหม่ ๆ ในด้านการสร้างเสียง ความก้าวหน้าทางเทคโนโลยีล่าสุดใช้ตัวแปลงสัญญาณเสียงที่มีประสิทธิภาพมากขึ้นซึ่งสามารถบีบอัดเสียงได้ในอัตราบิตต่ำ 600 บิตต่อวินาทีในขณะที่รักษาคุณภาพเอาต์พุต
เพื่อให้บรรลุความก้าวหน้าทางเทคโนโลยีนี้ Google ได้พัฒนาสถาปัตยกรรมหม้อแปลงพิเศษที่สามารถประมวลผลลำดับชั้นข้อมูลได้อย่างมีประสิทธิภาพ แบบจำลองนี้ได้รับการฝึกอบรมล่วงหน้าเป็นครั้งแรกในหลายแสนชั่วโมงของข้อมูลการพูดและจากนั้นปรับแต่งชุดข้อมูลการสนทนาที่มีคุณภาพสูงซึ่งมีคุณสมบัติตามธรรมชาติเช่นเสียงหยุดชั่วคราวในการสนทนาจริง เพื่อให้แน่ใจว่าการใช้เทคโนโลยีอย่างมีความรับผิดชอบ Google ได้รวมเทคโนโลยี Synthid เพื่อเพิ่มลายน้ำให้กับเนื้อหาเสียงที่สร้างขึ้นโดย AI
มองไปข้างหน้า Google กำลังทำงานเพื่อปรับปรุงความราบรื่นคุณภาพเสียงของรุ่นและเพิ่มการควบคุมที่มีรายละเอียดมากขึ้น เมื่อรวมกับซีรีส์ Gemini ของโมเดลเทคโนโลยีนี้คาดว่าจะมีบทบาทสำคัญในการปรับปรุงประสบการณ์การศึกษาและการเข้าถึงเนื้อหาทำให้มีความเป็นไปได้มากขึ้นกับเทคโนโลยีเสียง
ความสำคัญของเทคโนโลยีนี้ไม่เพียง แต่ในการปรับปรุงประสิทธิภาพเท่านั้น แต่ยังรวมถึงการเปิดบทใหม่สำหรับการมีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ ด้วยการเปลี่ยนนวัตกรรมทางเทคโนโลยีที่ซับซ้อนให้เป็นวิธีการโต้ตอบที่เป็นธรรมชาติและเข้าใจง่าย Google กำลังวางรากฐานสำหรับประสบการณ์ดิจิทัลรุ่นต่อไป
รายละเอียด: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
เทคโนโลยีการสร้างเสียงของ Google ไม่เพียง แต่เป็นการก้าวกระโดดทางเทคโนโลยีเท่านั้น แต่ยังรวมถึงความก้าวหน้าในการปฏิวัติในการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ซึ่งนำความเป็นไปได้ไม่ จำกัด สู่โลกดิจิตอลในอนาคต