Oute AI ได้เปิดตัววิธีการสังเคราะห์ข้อความแบบข้อความใหม่ที่เรียกว่า Outetts-0.1-350m รุ่น TTS ที่ง่ายขึ้นตามสถาปัตยกรรม Llama ไม่จำเป็นต้องใช้อะแดปเตอร์ภายนอกใช้ WavTokenizer โดยตรงเพื่อสร้างแท็กเสียงและมีฟังก์ชั่นการโคลนเสียงที่ไม่มีตัวอย่างซึ่งสามารถคัดลอกเสียงใหม่ในเวลาเพียงไม่กี่วินาทีของเสียงอ้างอิง พารามิเตอร์ของโมเดลมีขนาดค่อนข้างเล็ก แต่สามารถบรรลุประสิทธิภาพเทียบเท่ากับระบบที่มีขนาดใหญ่และซับซ้อนมากขึ้นและเข้ากันได้กับ llama.cpp ทำให้เหมาะสำหรับการใช้งานแบบเรียลไทม์ ประสิทธิภาพและความสะดวกในการใช้งานทำให้มีโอกาสในการใช้งานที่หลากหลายในด้านต่าง ๆ เช่นผู้ช่วยส่วนบุคคลหนังสือเสียงและการแปลเนื้อหา
เมื่อเร็ว ๆ นี้ Oute AI ได้เปิดตัววิธีการสังเคราะห์แบบข้อความเป็นคำพูดที่เรียกว่า Outetts-0.1-350m วิธีการนี้ใช้การสร้างแบบจำลองภาษาที่บริสุทธิ์โดยไม่ต้องใช้อะแดปเตอร์ภายนอกหรือสถาปัตยกรรมที่ซับซ้อนซึ่งให้วิธี TTS ที่ง่ายขึ้น Outetts-0.1-350m ขึ้นอยู่กับสถาปัตยกรรม Llama โดยใช้ Wavtokenizer เพื่อสร้างแท็กเสียงโดยตรงทำให้กระบวนการมีประสิทธิภาพมากขึ้น
โมเดลมีการโคลนเสียงตัวอย่างเป็นศูนย์และสามารถคัดลอกเสียงใหม่ในเวลาเพียงไม่กี่วินาทีของเสียงอ้างอิง Outetts-0.1-350m ออกแบบมาสำหรับประสิทธิภาพของอุปกรณ์และเข้ากันได้กับ llama.cpp ทำให้เหมาะสำหรับการใช้งานแบบเรียลไทม์ แม้ว่าโมเดลจะมีขนาดพารามิเตอร์ที่ค่อนข้างเล็ก (350 ล้าน) แต่ประสิทธิภาพของมันก็เปรียบได้กับระบบ TTS ที่ใหญ่กว่าและซับซ้อนมากขึ้น
การเข้าถึงและประสิทธิภาพของ Outetts-0.1-350m ทำให้เหมาะสำหรับแอปพลิเคชันที่หลากหลายรวมถึงผู้ช่วยส่วนบุคคลหนังสือเสียงและการแปลเนื้อหา Oute AI เปิดตัวภายใต้ใบอนุญาต CC-by ส่งเสริมการทดลองเพิ่มเติมและบูรณาการเข้ากับโครงการที่แตกต่างกันเพื่อให้เป็นประชาธิปไตยเทคโนโลยี TTS ขั้นสูง
การเปิดตัว Outetts-0.1-350m ทำเครื่องหมายขั้นตอนสำคัญไปข้างหน้าในเทคโนโลยีข้อความเป็นคำพูดซึ่งใช้สถาปัตยกรรมที่ง่ายขึ้นเพื่อให้การสังเคราะห์คำพูดที่มีคุณภาพสูงพร้อมข้อกำหนดการคำนวณน้อยที่สุด มันรวมสถาปัตยกรรม Llama ใช้ wavtokenizer และสามารถทำการโคลนเสียงตัวอย่างเป็นศูนย์โดยไม่ต้องใช้อะแดปเตอร์ที่ซับซ้อนซึ่งแยกความแตกต่างจากโมเดล TTS แบบดั้งเดิม
ที่อยู่: https://www.outeai.com/blog/outetts-0.1-350m
Outetts-0.1-350m สถาปัตยกรรมที่มีประสิทธิภาพและง่ายขึ้นและฟังก์ชั่นการโคลนเสียงที่เป็นศูนย์ตัวอย่างนำความเป็นไปได้ใหม่ ๆ มาสู่เทคโนโลยีข้อความเป็นคำพูดและให้เครื่องมือที่สะดวกและใช้งานง่ายขึ้น ลักษณะของโอเพนซอร์ซได้ส่งเสริมการพัฒนาเทคโนโลยีและความนิยมของแอพพลิเคชั่นในสาขานี้