เมื่อเร็วๆ นี้ โมเดลการสังเคราะห์เสียงพูดแบบใหม่ที่เรียกว่า Kokoro ได้รับการเผยแพร่บนแพลตฟอร์ม Hugging Face ซึ่งดึงดูดความสนใจอย่างกว้างขวาง โมเดลนี้ใช้พารามิเตอร์เพียง 82 ล้านพารามิเตอร์และข้อมูลเสียงน้อยกว่า 100 ชั่วโมงเพื่อให้ได้ผลลัพธ์ที่เทียบเคียงได้กับรุ่นที่มีพารามิเตอร์มากกว่าตัวมันเองมาก ซึ่งจัดอยู่ในกลุ่มที่ดีที่สุดในสาขา TTS กระบวนการฝึกอบรมที่มีประสิทธิภาพและการใช้งานที่สะดวกทำให้เป็นความก้าวหน้าในด้านการสังเคราะห์เสียงพูด บทความนี้จะแนะนำรายละเอียดเกี่ยวกับประสิทธิภาพ กระบวนการฝึกอบรม การใช้งาน และข้อจำกัดของโมเดล Kokoro
ในการพัฒนาปัญญาประดิษฐ์อย่างรวดเร็ว เทคโนโลยีการสังเคราะห์เสียงกำลังได้รับความสนใจเพิ่มมากขึ้น เมื่อเร็วๆ นี้ โมเดลการสังเคราะห์เสียงพูดล่าสุดชื่อ Kokoro เปิดตัวอย่างเป็นทางการบนแพลตฟอร์ม Hugging Face โมเดลดังกล่าวมีพารามิเตอร์ถึง 82 ล้านพารามิเตอร์ ซึ่งถือเป็นก้าวสำคัญในด้านการสังเคราะห์เสียงพูด
Kokoro v0.19 ติดอันดับหนึ่งในกระดานผู้นำ TTS (การอ่านออกเสียงข้อความ) ในช่วงหลายสัปดาห์ก่อนการเปิดตัว ซึ่งมีประสิทธิภาพเหนือกว่ารุ่นอื่นๆ ที่มีพารามิเตอร์มากกว่า ในการตั้งค่าโมโน โมเดลนี้ให้ผลลัพธ์ที่เทียบได้กับรุ่น เช่น พารามิเตอร์ 467M XTTS v2 และพารามิเตอร์ 1.2B MetaVoice โดยใช้ข้อมูลเสียงน้อยกว่า 100 ชั่วโมง ความสำเร็จนี้แสดงให้เห็นว่าความสัมพันธ์ระหว่างประสิทธิภาพของแบบจำลองการสังเคราะห์เสียงพูดแบบดั้งเดิมกับจำนวนพารามิเตอร์ การคำนวณ และข้อมูลอาจมีนัยสำคัญมากกว่าที่คาดไว้ก่อนหน้านี้
ในแง่ของการใช้งาน ผู้ใช้จะต้องเรียกใช้โค้ดเพียงไม่กี่บรรทัดใน Google Colab เพื่อโหลดโมเดลและแพ็คเกจเสียง และสร้างเสียงคุณภาพสูง ปัจจุบัน Kokoro รองรับภาษาอังกฤษแบบสหรัฐอเมริกาและภาษาอังกฤษแบบอังกฤษ และมีชุดเสียงหลายชุดให้ผู้ใช้เลือก
กระบวนการฝึกอบรมของ Kokoro ใช้อินสแตนซ์ A10080GB vRAM ของ Vast.ai และค่าเช่าค่อนข้างต่ำ ช่วยให้มั่นใจได้ถึงกระบวนการฝึกอบรมที่มีประสิทธิภาพ โมเดลทั้งหมดได้รับการฝึกฝนโดยใช้ยุคการฝึกอบรมน้อยกว่า 20 ยุคและข้อมูลเสียงน้อยกว่า 100 ชั่วโมง โมเดล Kokoro ใช้ข้อมูลเสียงที่เป็นสาธารณสมบัติตลอดจนเสียงจากใบอนุญาตแบบเปิดอื่นๆ ในการฝึกอบรม เพื่อให้มั่นใจว่าเป็นไปตามข้อมูล
แม้ว่า Kokoro จะทำงานได้ดีในการสังเคราะห์เสียงพูด แต่ในปัจจุบันยังไม่สามารถรองรับการโคลนเสียงได้เนื่องจากข้อจำกัดในข้อมูลและสถาปัตยกรรมการฝึกอบรม และข้อมูลการฝึกอบรมหลักมุ่งเน้นไปที่การอ่านและการเล่าเรื่องที่ยาวนานมากกว่าบทสนทนา
นางแบบ: https://huggingface.co/hexgrad/Kokoro-82M
ประสบการณ์: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
ไฮไลท์:
Kokoro-82M เป็นโมเดลการสังเคราะห์เสียงพูดที่เพิ่งเปิดตัวใหม่ซึ่งมีพารามิเตอร์ 82 ล้านพารามิเตอร์ และรองรับแพ็คเกจเสียงพูดที่หลากหลาย
รุ่นนี้มีประสิทธิภาพที่ยอดเยี่ยมในด้าน TTS และเคยติดอันดับหนึ่งในการจัดอันดับ โดยใช้เวลาเพียงไม่ถึง 100 ชั่วโมงของข้อมูลเสียงในการฝึกอบรม
โมเดล Kokoro ได้รับการฝึกฝนโดยใช้ข้อมูลลิขสิทธิ์แบบเปิดเพื่อให้มั่นใจว่าเป็นไปตามข้อกำหนด แต่ในปัจจุบันมีข้อจำกัดด้านการทำงานบางประการ
โดยรวมแล้ว โมเดล Kokoro แสดงให้เห็นถึงศักยภาพที่น่าประทับใจในด้านการสังเคราะห์เสียงพูด และการฝึกอบรมที่มีประสิทธิภาพและประสิทธิภาพที่ยอดเยี่ยมก็สมควรได้รับความสนใจ แม้ว่าปัจจุบันยังมีข้อจำกัดอยู่บ้าง แต่ฉันเชื่อว่าด้วยการพัฒนาเทคโนโลยีอย่างต่อเนื่อง Kokoro จะมีสถานการณ์การใช้งานที่กว้างขึ้นในอนาคต