Perusahaan Israel meluncurkan Whisper Medusa, model pengenalan suara sumber terbuka yang 50% lebih cepat

Penulis：Eve Cole Waktu Pembaruan：2024-12-15 17:16:01

Perusahaan kecerdasan buatan Israel aiOla baru-baru ini merilis model pengenalan suara sumber terbuka yang disebut Whisper Medusa. Model ini telah mencapai terobosan signifikan dalam kecepatan, dan kecepatan pemrosesannya 50% lebih cepat daripada model Whisper OpenAI. Terobosan ini telah menarik perhatian luas di industri ini, dan intinya terletak pada peningkatan desain arsitektur dan metode pelatihan yang inovatif. Whisper Medusa tidak hanya lebih cepat, tetapi juga menjaga tingkat akurasi dan stabilitas yang tinggi, membawa kemungkinan baru dalam pengembangan teknologi pengenalan suara.

Perusahaan kecerdasan buatan Israel aiOla baru-baru ini membuat terobosan besar di bidang teknologi pengenalan suara dan meluncurkan model pengenalan suara sumber terbuka yang disebut Whisper Medusa. Kecepatan pemrosesan model baru ini 50% lebih cepat dibandingkan model Whisper OpenAI, yang telah menarik perhatian luas di industri.

Inovasi inti dari Whisper Medusa adalah desain arsitekturnya yang ditingkatkan. aiOla telah memodifikasi arsitektur asli Whisper dan memperkenalkan mekanisme perhatian multi-kepala. Mekanisme ini memungkinkan model untuk secara bersamaan memfokuskan informasi dari subruang representasi yang berbeda dengan menggunakan beberapa kepala perhatian secara paralel. Inovasi ini memungkinkan model untuk memprediksi sepuluh token sekaligus, bukan hanya satu token dalam satu waktu, sehingga secara signifikan meningkatkan kecepatan prediksi ucapan dan waktu proses pembuatan.

Perlu dicatat bahwa Whisper Medusa meningkatkan kecepatan tanpa mengorbankan kinerja. Hal ini disebabkan sistem backbone-nya masih berbasis Whisper, sehingga menjamin akurasi dan stabilitas model. Selama proses pelatihan, aiOla menggunakan metode pembelajaran mesin yang disebut pengawasan lemah. Secara khusus, mereka membekukan komponen utama Whisper dan menggunakan transkripsi audio yang dihasilkan oleh model sebagai label untuk melatih modul prediksi token tambahan. Metode pelatihan inovatif ini semakin meningkatkan efisiensi dan akurasi pembelajaran model.

Rilisan open source dari Whisper Medusa dapat memberikan dampak besar pada perkembangan teknologi pengenalan suara. Hal ini tidak hanya menyediakan alat baru yang canggih bagi para peneliti dan pengembang, tetapi juga dapat mendorong pengembangan aplikasi pemrosesan ucapan yang lebih cepat dan efisien. Dalam konteks meningkatnya permintaan akan interaksi suara, terobosan teknologi ini tentunya akan membuka kemungkinan baru penerapan kecerdasan buatan di bidang pengenalan suara.

Dengan peluncuran Whisper Medusa, kita dapat melihat lebih banyak aplikasi inovatif berdasarkan model ini, mulai dari asisten cerdas hingga terjemahan real-time hingga sistem kontrol suara, yang semuanya dapat memperoleh peningkatan kinerja yang signifikan sebagai hasilnya. Kemajuan ini tidak hanya menandai tonggak penting dalam teknologi pengenalan suara, namun juga memberikan cetak biru yang lebih efisien dan lancar untuk masa depan interaksi antara kecerdasan buatan dan manusia.

Alamat proyek: https://github.com/aiola-lab/whisper-medusa

wajah berpelukan: https://huggingface.co/aiola/whisper-medusa-v1

Sumber terbuka dan kinerja tinggi Whisper Medusa menunjukkan bahwa teknologi pengenalan suara akan mengantarkan gelombang perkembangan baru, menghadirkan pengalaman yang lebih lancar dan efisien untuk berbagai aplikasi suara dan mempromosikan penerapan teknologi kecerdasan buatan di lebih banyak bidang. Kami berharap dapat melihat lebih banyak aplikasi inovatif berdasarkan model ini muncul.