Nexa AI เปิดตัว OmniAudio-2.6B: โมเดลภาษาเสียงที่รวดเร็วสำหรับการใช้งาน Edge

ผู้เขียน：Eve Cole เวลาอัปเดต：2024-12-19 10:00:02

Nexa AI ได้เปิดตัวโมเดลภาษาเสียง OmniAudio-2.6B ล่าสุด ซึ่งเป็นเครื่องมืออันทรงพลังที่ได้รับการปรับแต่งมาสำหรับอุปกรณ์ Edge โดยจะรวมการรู้จำเสียงพูดอัตโนมัติ (ASR) และโมเดลภาษาไว้ในเฟรมเวิร์กแบบรวม ปรับปรุงความเร็วและประสิทธิภาพการประมวลผลอย่างมีนัยสำคัญ และแก้ไขปัญหาความไร้ประสิทธิภาพและความล่าช้าที่เกิดจากการเชื่อมต่อระหว่างส่วนประกอบในสถาปัตยกรรมแบบดั้งเดิม รุ่นนี้เหมาะอย่างยิ่งสำหรับอุปกรณ์ที่มีทรัพยากรการประมวลผลจำกัด เช่น อุปกรณ์สวมใส่ ระบบยานยนต์ และอุปกรณ์ IoT

เมื่อเร็วๆ นี้ Nexa AI ได้เปิดตัวโมเดลภาษาเสียง OmniAudio-2.6B ใหม่ ซึ่งออกแบบมาเพื่อตอบสนองความต้องการในการใช้งานอุปกรณ์ Edge อย่างมีประสิทธิภาพ แตกต่างจากสถาปัตยกรรมแบบดั้งเดิมที่แยกโมเดลการรู้จำเสียงพูดอัตโนมัติ (ASR) และภาษาออก OmniAudio-2.6B ได้รวม Gemma-2-2b, Whisper Turbo และโปรเจ็กเตอร์แบบกำหนดเองไว้ในกรอบงานแบบครบวงจร การออกแบบนี้ช่วยขจัดความไร้ประสิทธิภาพและความหน่วงของระบบแบบเดิม การเชื่อมโยงส่วนประกอบต่างๆ ในเครือข่ายเหมาะอย่างยิ่งสำหรับอุปกรณ์ที่มีทรัพยากรการประมวลผลจำกัด

ไฮไลท์หลัก:

ความเร็วในการประมวลผล: OmniAudio-2.6B มีประสิทธิภาพเป็นเลิศ บน Mac Mini M4Pro ปี 2024 เมื่อใช้ Nexa SDK และใช้รูปแบบ FP16GGUF โมเดลดังกล่าวได้รับโทเค็น 35.23 ต่อวินาที และ 66 โทเค็นต่อวินาทีในรูปแบบ Q4_K_M GGUF ในการเปรียบเทียบ Qwen2-Audio-7B สามารถรองรับโทเค็นได้เพียง 6.38 โทเค็นต่อวินาทีบนฮาร์ดแวร์ที่คล้ายกัน ซึ่งแสดงให้เห็นถึงความได้เปรียบด้านความเร็วอย่างมาก ประสิทธิภาพของทรัพยากร: การออกแบบที่กะทัดรัดของรุ่นนี้ช่วยลดการพึ่งพาทรัพยากรคลาวด์ ทำให้เหมาะอย่างยิ่งสำหรับอุปกรณ์สวมใส่ที่จำกัดพลังงานและแบนด์วิธ ระบบยานยนต์ และอุปกรณ์ IoT คุณสมบัตินี้ช่วยให้การทำงานมีประสิทธิภาพภายใต้เงื่อนไขของฮาร์ดแวร์ที่จำกัด ความแม่นยำและความยืดหยุ่นสูง: แม้ว่า OmniAudio-2.6B จะเน้นไปที่ความเร็วและประสิทธิภาพ แต่ก็ยังทำงานได้ดีในแง่ของความแม่นยำและเหมาะสำหรับงานที่หลากหลาย เช่น การถอดเสียง การแปล การสรุป ฯลฯ ไม่ว่าจะเป็นการประมวลผลคำพูดแบบเรียลไทม์หรืองานภาษาที่ซับซ้อน OmniAudio-2.6B สามารถให้ผลลัพธ์ที่แม่นยำ

การเปิดตัว OmniAudio-2.6B ถือเป็นความก้าวหน้าที่สำคัญอีกประการหนึ่งของ Nexa AI ในด้านโมเดลภาษาเสียงที่ได้รับการปรับปรุงให้ดีขึ้น ไม่เพียงแต่ปรับปรุงความเร็วและประสิทธิภาพในการประมวลผลเท่านั้น แต่ยังนำความเป็นไปได้มาสู่อุปกรณ์ประมวลผลแบบ Edge อีกด้วย เนื่องจาก Internet of Things และอุปกรณ์สวมใส่ยังคงได้รับความนิยมมากขึ้น OmniAudio-2.6B จึงคาดว่าจะมีบทบาทสำคัญในสถานการณ์การใช้งานที่หลากหลาย

ที่อยู่รุ่น: https://huggingface.co/NexaAIDev/OmniAudio-2.6B

ที่อยู่ผลิตภัณฑ์: https://nexa.ai/blogs/omniaudio-2.6b

โดยรวมแล้ว OmniAudio-2.6B ได้นำการเปลี่ยนแปลงที่ปฏิวัติวงการมาสู่การประมวลผลเสียงบนอุปกรณ์ Edge ด้วยสถาปัตยกรรมที่มีประสิทธิภาพและประสิทธิภาพที่ยอดเยี่ยม โดยวางรากฐานที่มั่นคงสำหรับการทำให้แอปพลิเคชัน AI ได้รับความนิยมอย่างแพร่หลายในอนาคต นวัตกรรมของ Nexa AI คุ้มค่ากับการรอคอย