Startup kecerdasan buatan Israel aiOla telah merilis model pengenalan suara open source baru Whisper-Medusa, yang ditingkatkan pada Whisper OpenAI dan 50% lebih cepat. Model ini bersumber terbuka di bawah lisensi MIT pada Penelitian dan penggunaan komersial diizinkan. Editor Downcodes akan memberi Anda penjelasan mendetail tentang model baru yang menarik ini.
Startup kecerdasan buatan Israel, aiOla, baru-baru ini membuat langkah besar dan mengumumkan peluncuran model pengenalan suara sumber terbuka baru, Whisper-Medusa.
Model ini tidak sederhana. Ini 50% lebih cepat daripada Whisper OpenAI yang terkenal! Model ini dibangun berdasarkan Whisper, tetapi menggunakan arsitektur "perhatian multi-kepala" baru untuk memprediksi jumlah token pada satu waktu. Jauh melampaui OpenAI. produk. Selain itu, kode dan bobot telah dirilis di Hugging Face di bawah lisensi MIT, yang memungkinkan penelitian dan penggunaan komersial.
Gill Hetz, wakil presiden penelitian di aiOla, mengatakan bahwa open source dapat mendorong inovasi dan kerja sama komunitas, menjadikannya lebih cepat dan lengkap. Pekerjaan ini dapat membuka jalan bagi sistem kecerdasan buatan kompleks yang dapat memahami dan menjawab pertanyaan pengguna hampir secara real-time.
Di era di mana model dasar dapat menghasilkan beragam konten, pengenalan ucapan tingkat lanjut masih sangat penting. Whisper, misalnya, dapat menangani ucapan kompleks dalam berbagai bahasa dan aksen. Ini diunduh lebih dari 5 juta kali sebulan, mendukung banyak aplikasi, dan telah menjadi standar emas untuk pengenalan suara.
Jadi apa yang spesial dari Whisper-Medusa aiOla?
Perusahaan mengubah struktur Whisper dan menambahkan mekanisme perhatian multi-kepala, yang dapat memprediksi 10 token sekaligus dan meningkatkan kecepatan sebesar 50% tanpa mempengaruhi akurasi. Metode pembelajaran mesin dengan pengawasan lemah digunakan untuk melatih model ini, dan akan ada versi yang lebih canggih di masa mendatang. Terlebih lagi, karena tulang punggung Whisper-Medusa dibangun di atas Whisper, peningkatan kecepatan tidak akan mengorbankan performa.
Saat melatih Whisper-Medusa, aiOla menggunakan metode pembelajaran mesin yang disebut pengawasan lemah. Sebagai bagian dari hal ini, ia membekukan komponen utama Whisper dan melatih modul prediksi token tambahan menggunakan transkripsi audio yang dihasilkan oleh model sebagai label.
Ketika ditanya apakah ada perusahaan yang bisa mendapatkan akses awal ke Whisper-Medusa, Hetz mengatakan bahwa mereka telah diuji pada kasus penggunaan data perusahaan nyata dan dapat berjalan secara akurat dalam skenario dunia nyata, menjadikan aplikasi suara lebih responsif di masa depan. Pada akhirnya, ia yakin peningkatan kecepatan pengenalan dan transkripsi akan memungkinkan waktu penyelesaian yang lebih cepat untuk aplikasi suara dan membuka jalan untuk memberikan respons real-time.
Menyorot:
?50% lebih cepat: Whisper-Medusa dari aiOla jauh lebih cepat dibandingkan pengenalan ucapan Whisper OpenAI.
?Tidak ada kehilangan akurasi: Kecepatan ditingkatkan dengan tetap mempertahankan akurasi yang sama seperti model aslinya.
Prospek penerapan yang luas: Diharapkan dapat mempercepat respons, meningkatkan efisiensi, dan mengurangi biaya dalam aplikasi suara.
Secara keseluruhan, model Whisper-Medusa aiOla, dengan keunggulan kecepatan dan atribut open source, diharapkan dapat memicu gelombang baru di bidang pengenalan suara dan membawa peningkatan kinerja yang signifikan pada berbagai aplikasi ucapan. Editor Downcodes akan terus memperhatikan perkembangan selanjutnya dan kontribusi komunitas dari model ini.