รายงานตัวแก้ไข Downcodes: Oute AI เพิ่งเปิดตัววิธีการสังเคราะห์ข้อความเป็นคำพูดใหม่ OuteTTS-0.1-350M โมเดล TTS นี้ใช้สถาปัตยกรรม LLaMa พร้อมด้วยสถาปัตยกรรมที่เรียบง่ายและ WavTokenizer ที่มีประสิทธิภาพ ทำให้สามารถสังเคราะห์เสียงพูดคุณภาพสูงได้โดยไม่ต้องใช้อะแดปเตอร์ภายนอก ไม่เพียงแต่มีความสามารถในการโคลนเสียงแบบเป็นศูนย์เท่านั้น แต่ยังเข้ากันได้กับ llama.cpp ทำให้เหมาะสำหรับแอปพลิเคชันแบบเรียลไทม์ การเปิดตัว OuteTTS-0.1-350M นำมาซึ่งความก้าวหน้าใหม่ๆ ในการพัฒนาเทคโนโลยีการอ่านออกเสียงข้อความอย่างไม่ต้องสงสัย
เมื่อเร็วๆ นี้ Oute AI ได้เปิดตัววิธีการสังเคราะห์ข้อความเป็นคำพูดแบบใหม่ที่เรียกว่า OuteTTS-0.1-350M แนวทางนี้ใช้ประโยชน์จากการสร้างแบบจำลองภาษาล้วนๆ โดยไม่ต้องใช้อะแดปเตอร์ภายนอกหรือสถาปัตยกรรมที่ซับซ้อน ทำให้เป็นแนวทางที่ง่ายขึ้นสำหรับ TTS OuteTTS-0.1-350M ใช้สถาปัตยกรรม LLaMa และใช้ WavTokenizer เพื่อสร้างโทเค็นเสียงโดยตรง ทำให้กระบวนการมีประสิทธิภาพมากขึ้น
โมเดลนี้มีคุณลักษณะการโคลนเสียงแบบไม่มีตัวอย่าง ซึ่งต้องใช้เวลาเพียงไม่กี่วินาทีในการอ้างอิงเสียงเพื่อจำลองเสียงใหม่ OuteTTS-0.1-350M ได้รับการออกแบบมาเพื่อประสิทธิภาพของอุปกรณ์ และเข้ากันได้กับ llama.cpp ทำให้เหมาะสำหรับแอปพลิเคชันแบบเรียลไทม์ แม้ว่าโมเดลจะมีขนาดพารามิเตอร์ค่อนข้างเล็ก (350 ล้าน) แต่ประสิทธิภาพก็เทียบได้กับระบบ TTS ที่ใหญ่กว่าและซับซ้อนกว่า
ความสามารถในการเข้าถึงและประสิทธิภาพของ OuteTTS-0.1-350M ทำให้เหมาะสำหรับการใช้งานที่หลากหลาย รวมถึงผู้ช่วยส่วนตัว หนังสือเสียง และการแปลเนื้อหา Oute AI ได้รับการเผยแพร่ภายใต้ใบอนุญาต CC-BY ซึ่งสนับสนุนการทดลองและการบูรณาการเพิ่มเติมในโครงการต่างๆ เพื่อทำให้เทคโนโลยี TTS ขั้นสูงเป็นประชาธิปไตย
การเปิดตัว OuteTTS-0.1-350M ถือเป็นก้าวสำคัญสำหรับเทคโนโลยีการแปลงข้อความเป็นคำพูด โดยใช้ประโยชน์จากสถาปัตยกรรมที่เรียบง่ายเพื่อส่งมอบการสังเคราะห์เสียงพูดคุณภาพสูงโดยมีข้อกำหนดด้านการคำนวณน้อยที่สุด โดยผสานรวมสถาปัตยกรรม LLaMa ใช้ WavTokenizer และสามารถทำการโคลนเสียงพูดตัวอย่างเป็นศูนย์โดยไม่ต้องใช้อะแดปเตอร์ที่ซับซ้อน ซึ่งทำให้แตกต่างจากรุ่น TTS แบบดั้งเดิม
ที่อยู่: https://www.outeai.com/blog/OuteTTS-0.1-350M
โดยรวมแล้ว OuteTTS-0.1-350M นำเสนอความเป็นไปได้ใหม่ๆ ให้กับฟิลด์การอ่านออกเสียงข้อความด้วยประสิทธิภาพ ความเรียบง่าย และความสามารถในการเข้าถึงได้ และคุ้มค่ากับการรอคอยถึงประสิทธิภาพในการใช้งานในอนาคต บรรณาธิการของ Downcodes จะยังคงให้ความสนใจกับการพัฒนาโมเดลนี้ต่อไป