รูปแบบข้อความเป็นคำพูดที่เร็วเป็นพิเศษ Lightning: เวลาแฝงต่ำเป็นพิเศษ 100 มิลลิวินาทีเพื่อสร้างเสียง 10 วินาที

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-11-29 14:41:01

บรรณาธิการของ Downcodes ได้เรียนรู้ว่าสตาร์ทอัพ American AI ขนาดเล็กที่สุด ได้เปิดตัว Lightning รุ่นอ่านออกเสียงข้อความ (TTS) ใหม่ ความเร็วน่าทึ่งมาก ใช้เวลาเพียง 100 มิลลิวินาทีในการสร้างเสียงสูงสุด 10 วินาที! นี่เป็นการก้าวกระโดดครั้งสำคัญในเทคโนโลยี TTS ซึ่งจะช่วยลดต้นทุนในการพัฒนาและแอปพลิเคชันหุ่นยนต์เสียงได้อย่างมาก ปรับปรุงการเข้าถึง และนำข่าวดีมาสู่นักพัฒนาทั่วโลก Lightning รองรับหลายสำเนียงในภาษาอังกฤษและฮินดี และจะรองรับภาษาอื่นๆ มากขึ้นในอนาคต และเสนอราคาที่แข่งขันได้สูง เพียง 0.02 ดอลลาร์ต่อนาที

ล่าสุด Smallest.ai ซึ่งเป็นสตาร์ทอัพด้าน AI ซึ่งมีสำนักงานใหญ่ในซานฟรานซิสโก รัฐแคลิฟอร์เนีย ได้เปิดตัวผลิตภัณฑ์ใหม่ Lightning ซึ่งเป็นโมเดลการอ่านออกเสียงข้อความ (TTS) ที่สามารถสร้างเสียงได้สูงสุด 10 วินาทีใน 100 มิลลิวินาที ความก้าวหน้าของเทคโนโลยีนี้ช่วยให้นักพัฒนาทั่วโลกสามารถสร้างแอปพลิเคชันหุ่นยนต์เสียงที่สมจริงอย่างมากโดยมีความหน่วงที่สั้นมาก ซึ่งช่วยลดต้นทุนการดำเนินงานและปรับปรุงการเข้าถึงแอปพลิเคชัน

ปัจจุบัน Lightning รองรับสำเนียงต่างๆ ในภาษาอังกฤษและฮินดี และทีมงานวางแผนที่จะเพิ่มภาษาอื่นๆ อย่างรวดเร็วเพื่อตอบสนองความต้องการของตลาด โมเดลนี้มีราคาเพียง 0.02 เหรียญสหรัฐ (ประมาณ 1.6 รูปี) ต่อนาที ช่วยให้นักพัฒนาบอทเสียงได้รับโซลูชันที่คุ้มค่าสูง โดยมีการควบคุมต้นทุนการทำงานของแอปพลิเคชันที่น้อยกว่า 1 รูปีต่อนาที ซึ่งช่วยลดต้นทุนในการสร้าง หุ่นยนต์เสียงพร้อมขยายการเข้าถึงตลาด

ต่างจากรุ่น TTS แบบดั้งเดิมที่ต้องอาศัยสื่อการสตรีมและซ็อกเก็ตเครือข่าย ซึ่งเพิ่มภาระของเซิร์ฟเวอร์และทำให้ความสามารถในการปรับขนาดซับซ้อนขึ้น Lightning ใช้การออกแบบ REST API ที่เรียบง่ายเพื่อส่งเสียงในเวลาประมาณ 100 มิลลิวินาที เพื่อหลีกเลี่ยงปัญหาที่เกิดจากการสตรีมอย่างต่อเนื่อง พลังการประมวลผลที่รวดเร็วและความคุ้มค่าทำให้เป็นทางเลือกที่สำคัญในอุตสาหกรรมหุ่นยนต์เสียง

คุณสมบัติผลิตภัณฑ์ของ Lightning สามารถสรุปได้ดังนี้:

1. ความเร็วและประสิทธิภาพ โมเดล Lightning เป็นที่รู้จักในฐานะการอ่านออกเสียงข้อความที่เร็วที่สุดในโลก โดยสร้างเสียงที่สมจริงเป็นพิเศษ 10 วินาทีในเวลา 100 มิลลิวินาที ทำให้เกิดการสังเคราะห์เสียงพูดแบบเรียลไทม์เพื่อตอบสนองความต้องการการตอบสนองที่รวดเร็ว

2. ความกะทัดรัดและความเข้ากันได้ ต้องการหน่วยความจำวิดีโอน้อยกว่า 1GB โมเดลมีขนาดเล็กและสามารถทำงานได้อย่างง่ายดายบนอุปกรณ์ผู้บริโภคและอุปกรณ์ Edge ส่วนใหญ่ ช่วยลดความต้องการด้านฮาร์ดแวร์

3. การสนับสนุนหลายภาษา รองรับหลายภาษาและสำเนียง ปัจจุบันรองรับหลายสำเนียงในภาษาอังกฤษและฮินดี และวางแผนที่จะเพิ่มภาษาอย่างรวดเร็วเพื่อตอบสนองความต้องการของผู้ใช้ทั่วโลก

4. ปรับแต่งได้สูง ตัวกระจายเสียงสไตล์ใช้ตัวกระจายเสียงสไตล์พิเศษเพื่อปรับสไตล์เสียงตามความต้องการของผู้ใช้ ทำให้คำพูดที่สร้างขึ้นเป็นธรรมชาติและสะเทือนอารมณ์มากขึ้น

5. บูรณาการได้ง่าย การบูรณาการ REST API มอบอินเทอร์เฟซ REST API ที่เรียบง่าย ช่วยให้นักพัฒนาสามารถรวมโมเดล Lightning เข้ากับระบบที่มีอยู่ได้อย่างรวดเร็ว โดยขจัดความจำเป็นในการเชื่อมต่อ WebSocket ที่ซับซ้อน

6. ราคาที่เป็นมิตร เริ่มต้นที่ 0.04 เหรียญสหรัฐฯ ต่อนาที เหมาะสำหรับองค์กรทุกประเภท และมีแผนการกำหนดราคาที่ปรับแต่งได้สำหรับองค์กรที่มีปริมาณการใช้งานมาก

Smallest.ai ก่อตั้งโดยศิษย์เก่า IIT Guwahati Sudarshan Kamath และ Akshat Mandloi Kamath กล่าวว่ากลยุทธ์ราคาต่ำของ Smallest.ai ได้รับการขับเคลื่อนจากการมุ่งเน้นไปที่คุณภาพข้อมูลและประสิทธิภาพของโมเดล “แบบจำลองของเรามีขนาดเล็กกว่าคู่แข่งเช่น ElevenLabs มาก แต่เราได้เอาต์พุตเสียงพูดคุณภาพสูงผ่านข้อมูลที่ละเอียดมาก” เขาอธิบาย

นักพัฒนาบอทเสียงที่ได้รับสิทธิ์เข้าถึง Lightning ก่อนใคร รายงานว่าต้นทุนการดำเนินงานลดลง 8 เท่า พร้อมปรับปรุงคุณภาพเสียง นอกเหนือจากแอปพลิเคชันบอทเสียงแบบเรียลไทม์แล้ว Lightning ยังใช้เพื่อสร้างเสียงบรรยายสำหรับหนังสือเสียงและเนื้อหาโซเชียลมีเดียบนแพลตฟอร์ม เช่น Instagram และ YouTube ผู้ที่ไม่ใช่นักพัฒนายังสามารถเข้าถึง Lightning ผ่านแพลตฟอร์ม Waves Speech และสัมผัสประสบการณ์ฟีเจอร์ต่างๆ เช่น การโคลนเสียงและการแปลงสำเนียง ซึ่งขณะนี้อยู่ในรุ่นเบต้า

ในการโต้ตอบพิเศษกับนิตยสาร Analytical India นั้น Kamath กล่าวว่า "เมื่อเราเริ่มสร้าง เราตระหนักได้ว่าโมเดลที่มีอยู่ซึ่งจำเป็นสำหรับบอทเสียงนั้นยังไม่พัฒนาเพียงพอสำหรับภาษาอินเดีย โมเดลที่มีอยู่สำหรับภาษาที่ไม่ใช่ภาษาอังกฤษนั้นยังไม่เพียงพอ ต้องการการผลิต"

ในเดือนมิถุนายนปีนี้ Smallest.ai ยังได้เปิดตัวรุ่น AWAAZ ซึ่งรองรับการโคลนเสียงผ่านคลิปเสียงสั้น ๆ ในราคาที่แข่งขันได้ โมเดลนี้ได้รับการออกแบบมาเพื่อตอบสนองแอปพลิเคชันที่ปรับขนาดได้ในตลาดภาษาในภูมิภาค และมอบความปลอดภัยและการปฏิบัติตามข้อกำหนดระดับองค์กร เมื่อถามเกี่ยวกับภารกิจ Kamath กล่าวว่า "เหตุใดผู้คนนับพันล้านคนจึงไม่สื่อสารด้วยเสียง AI ในแต่ละวัน ทั้งๆ ที่เทคโนโลยี AI เสียงมีความก้าวหน้าอย่างมาก นี่คือคำถามที่เรามุ่งมั่นที่จะแก้ไข"

ทางเข้าโครงการ: https://smallest.ai/blog/lightning-fast-text-to-speech

การเกิดขึ้นของโมเดล Lightning ทำให้เกิดมาตรฐานใหม่สำหรับเทคโนโลยีการสังเคราะห์เสียงพูดอย่างไม่ต้องสงสัย ประสิทธิภาพสูง ต้นทุนต่ำ และการผสานรวมที่ง่ายดายจะส่งเสริมความนิยมและนวัตกรรมของแอปพลิเคชันหุ่นยนต์เสียง และนำโอกาสใหม่ ๆ มาสู่นักพัฒนาและองค์กรต่างๆ มากขึ้น บรรณาธิการของ Downcodes หวังว่า Lightning จะรองรับภาษาและฟังก์ชันต่างๆ มากขึ้นในอนาคต นำประสบการณ์เสียงที่สะดวกและดียิ่งขึ้นมาสู่ผู้ใช้ทั่วโลก