Nexa AI merilis OmniAudio-2.6B: model bahasa audio cepat untuk penerapan edge

Penulis：Eve Cole Waktu Pembaruan：2024-12-19 10:00:02

Nexa AI telah merilis model bahasa audio OmniAudio-2.6B terbaru, alat canggih yang dioptimalkan untuk perangkat edge. Ini mengintegrasikan pengenalan ucapan otomatis (ASR) dan model bahasa ke dalam kerangka terpadu, secara signifikan meningkatkan kecepatan dan efisiensi pemrosesan, serta memecahkan masalah inefisiensi dan penundaan yang disebabkan oleh koneksi antar komponen dalam arsitektur tradisional. Model ini sangat cocok untuk perangkat dengan sumber daya komputasi terbatas, seperti perangkat yang dapat dikenakan, sistem otomotif, dan perangkat IoT.

Nexa AI baru-baru ini meluncurkan model bahasa audio OmniAudio-2.6B baru, yang dirancang untuk memenuhi kebutuhan penerapan perangkat edge yang efisien. Tidak seperti arsitektur tradisional yang memisahkan pengenalan ucapan otomatis (ASR) dan model bahasa, OmniAudio-2.6B mengintegrasikan Gemma-2-2b, Whisper Turbo, dan proyektor khusus ke dalam kerangka terpadu keterkaitan berbagai komponen dalam jaringan sangat cocok untuk perangkat dengan sumber daya komputasi terbatas.

Sorotan utama:

Kecepatan pemrosesan: OmniAudio-2.6B unggul dalam kinerja. Pada Mac Mini M4Pro 2024, menggunakan Nexa SDK dan menggunakan format FP16GGUF, model ini mencapai 35,23 token per detik, dan 66 token per detik dalam format Q4_K_M GGUF. Sebagai perbandingan, Qwen2-Audio-7B hanya dapat menangani 6,38 token per detik pada perangkat keras serupa, yang menunjukkan keunggulan kecepatan yang signifikan. Efisiensi Sumber Daya: Desain model yang ringkas mengurangi ketergantungan pada sumber daya cloud, sehingga ideal untuk perangkat wearable, sistem otomotif, dan perangkat IoT yang memiliki keterbatasan daya dan bandwidth. Fitur ini memungkinkan pengoperasian yang efisien dalam kondisi perangkat keras yang terbatas. Akurasi dan fleksibilitas tinggi: Meskipun OmniAudio-2.6B berfokus pada kecepatan dan efisiensi, ia juga berkinerja baik dalam hal akurasi dan cocok untuk berbagai tugas seperti transkripsi, terjemahan, peringkasan, dll. Baik itu pemrosesan ucapan real-time atau tugas bahasa yang rumit, OmniAudio-2.6B dapat memberikan hasil yang akurat.

Peluncuran OmniAudio-2.6B menandai kemajuan penting Nexa AI di bidang model bahasa audio. Arsitekturnya yang dioptimalkan tidak hanya meningkatkan kecepatan dan efisiensi pemrosesan, namun juga menghadirkan lebih banyak kemungkinan pada perangkat komputasi edge. Seiring dengan semakin populernya Internet of Things dan perangkat wearable, OmniAudio-2.6B diharapkan memainkan peran penting dalam berbagai skenario aplikasi.

Alamat model: https://huggingface.co/NexaAIDev/OmniAudio-2.6B

Alamat produk: https://nexa.ai/blogs/omniaudio-2.6b

Secara keseluruhan, OmniAudio-2.6B telah membawa perubahan revolusioner pada pemrosesan audio pada perangkat edge dengan arsitektur efisien dan kinerja luar biasa, meletakkan dasar yang kuat untuk mempopulerkan aplikasi AI secara luas di masa depan. Inovasi Nexa AI patut dinantikan.