Sensor Berguna Startup AS telah merilis model pengenalan suara open source yang disebut Moonshine, yang bertujuan untuk meningkatkan efisiensi pemrosesan data audio. Dibandingkan dengan bisikan Openai, nonsen lebih ekonomis dalam sumber daya komputasi dan telah meningkatkan kecepatan pemrosesan lima kali, terutama untuk perangkat keras yang dibatasi sumber daya dan aplikasi real-time. Arsitektur fleksibel dan penyesuaian waktu pemrosesan yang dinamis sesuai dengan panjang audio membuatnya luar biasa saat memproses klip audio pendek dan secara efektif mengurangi overhead pemrosesan. Moonshine menyediakan dua versi, kecil dan basis, dengan parameter 27,1 juta dan 61,5 juta, masing -masing, yang keduanya lebih baik daripada kinerja model serupa dalam pemanfaatan sumber daya.
Tidak seperti Whisper yang membagi audio menjadi klip 30 detik yang tetap, minuman keras menyesuaikan waktu pemrosesan sesuai dengan panjang audio yang sebenarnya. Ini membuatnya berkinerja baik saat menangani klip audio yang lebih pendek, mengurangi overhead pemrosesan karena nol bantalan.
Moonshine memiliki dua versi: Versi kecil kecil memiliki volume parameter 27,1 juta, dan versi dasar yang besar memiliki volume parameter 61,5 juta. Sebaliknya, parameter model Openai yang serupa lebih besar, dengan bisikan kecil.
Hasil tes menunjukkan bahwa model mungil Moonshine sebanding dengan Whisper dalam hal akurasi dan mengkonsumsi lebih sedikit sumber daya komputasi. Kedua versi minuman keras lebih rendah dari bisikan dalam tingkat kesalahan kata (WER) untuk berbagai tingkat audio dan kebisingan latar belakang, menunjukkan kinerja yang kuat.
Tim peneliti menunjukkan bahwa nonsel masih memiliki ruang untuk perbaikan saat memproses chip audio yang sangat pendek (kurang dari satu detik). Audio pendek ini memperhitungkan sebagian kecil data pelatihan, dan meningkatkan pelatihan klip audio tersebut dapat meningkatkan kinerja model.
Selain itu, kemampuan offline Moonshine membuka skenario aplikasi baru, dan aplikasi yang sebelumnya tidak tersedia karena keterbatasan perangkat keras sekarang layak. Tidak seperti Whisper, yang membutuhkan konsumsi daya yang lebih tinggi, minuman keras cocok untuk menjalankan smartphone dan perangkat kecil seperti Raspberry Pi. Sensor yang berguna menggunakan nonsel untuk mengembangkan penerjemahnya yang berbahasa Inggris-Spanyol Torre.
Kode Moonshine telah dirilis di GitHub, dan pengguna perlu mencatat bahwa sistem transkripsi AI seperti Whisper mungkin mengalami kesalahan. Beberapa penelitian telah menunjukkan bahwa Whisper memiliki peluang 1,4% untuk informasi palsu ketika menghasilkan konten, terutama untuk orang dengan hambatan bahasa, dengan tingkat kesalahan yang lebih tinggi.
Pintu masuk proyek: https://github.com/usefulsensors/moonshine
Poin -Poin Kunci:
Moonshine adalah model pengenalan suara open source yang memproses lima kali lebih cepat dari bisikan Openai.
Model ini dapat menyesuaikan waktu pemrosesan sesuai dengan panjang audio, terutama cocok untuk klip audio pendek.
Moonshine mendukung operasi offline dan cocok untuk digunakan dengan sumber daya yang terbatas.
Singkatnya, Moonshine membawa kemungkinan baru untuk teknologi pengenalan suara dengan kecepatan pemrosesan yang efisien, arsitektur fleksibel dan permintaan sumber daya yang rendah, terutama di perangkat yang dibatasi sumber daya dan skenario aplikasi waktu-nyata. Fitur open source -nya juga memfasilitasi pengembang untuk meningkatkan dan mendaftar, dan patut diperhatikan dan dinantikan.