Laporan editor Downcode: Startup AS, Effective Sensors, telah merilis model pengenalan suara open source yang disebut Moonshine. Model ini menunjukkan keunggulan signifikan dalam hal efisiensi sumber daya komputasi dan kecepatan pemrosesan. Dibandingkan dengan model Whisper OpenAI, kecepatannya meningkat lima kali lipat. Moonshine dirancang untuk mengimplementasikan aplikasi real-time pada perangkat keras dengan sumber daya terbatas, dan arsitekturnya yang fleksibel memungkinkannya beradaptasi dengan berbagai skenario aplikasi. Ini merupakan terobosan besar untuk aplikasi yang memerlukan pengenalan suara agar dapat dijalankan pada perangkat berdaya rendah.
Tidak seperti Whisper, yang memproses audio menjadi segmen tetap 30 detik, Moonshine menyesuaikan waktu pemrosesan berdasarkan panjang audio sebenarnya. Hal ini membuatnya bekerja dengan baik saat memproses klip audio yang lebih pendek, sehingga mengurangi overhead pemrosesan karena tanpa padding.
Moonshine hadir dalam dua versi: versi Tiny kecil memiliki 27,1 juta parameter, dan versi Base besar memiliki 61,5 juta parameter. Sebagai perbandingan, model serupa OpenAI memiliki parameter lebih besar, Whisper tiny.en memiliki 37,8 juta, dan base.en memiliki 72,6 juta.
Hasil pengujian menunjukkan bahwa model Tiny Moonshine setara dengan Whisper dalam hal akurasi namun mengonsumsi lebih sedikit sumber daya komputasi. Di berbagai tingkat audio dan kebisingan latar belakang, kedua versi Moonshine lebih rendah daripada Whisper dalam tingkat kesalahan kata (WER), sehingga menunjukkan kinerja yang kuat.
Tim peneliti mencatat bahwa Moonshine masih memiliki ruang untuk perbaikan ketika memproses klip audio yang sangat pendek (kurang dari satu detik). Audio pendek ini mencakup proporsi data pelatihan yang relatif kecil, dan meningkatkan pelatihan klip audio tersebut dapat meningkatkan performa model.
Selain itu, kemampuan offline Moonshine membuka skenario aplikasi baru, dan aplikasi yang sebelumnya tidak mungkin dilakukan karena keterbatasan perangkat keras kini dapat dilakukan. Berbeda dengan Whisper yang membutuhkan konsumsi daya lebih tinggi, Moonshine cocok dijalankan di smartphone dan perangkat kecil seperti Raspberry Pi. Sensor Berguna menggunakan Moonshine untuk mengembangkan penerjemah Inggris-Spanyolnya, Torre.
Kode untuk Moonshine telah dirilis di GitHub, dan pengguna perlu menyadari bahwa sistem transkripsi AI seperti Whisper mungkin mengalami kesalahan. Beberapa penelitian menunjukkan bahwa Whisper memiliki peluang 1,4% untuk memuat informasi palsu saat membuat konten, terutama bagi orang-orang dengan gangguan bahasa, yang tingkat kesalahannya lebih tinggi.
Pintu masuk proyek: https://github.com/usefulsensors/moonshine
Munculnya model pengenalan suara open source Moonshine membawa kemungkinan baru untuk aplikasi pengenalan suara pada perangkat dengan sumber daya rendah. Performanya yang efisien dan arsitekturnya yang fleksibel membuatnya memiliki prospek penerapan yang luas di banyak bidang. Namun pengguna juga perlu mewaspadai potensi kesalahan dan menggunakannya dengan hati-hati. Editor Downcodes menyarankan agar setiap orang memperhatikan pembaruan dan peningkatan selanjutnya.