Baru-baru ini, model sintesis ucapan baru bernama Kokoro dirilis di platform Hugging Face dan menarik perhatian luas. Model ini hanya menggunakan 82 juta parameter dan data audio kurang dari 100 jam untuk mencapai hasil yang sebanding dengan model dengan parameter jauh lebih banyak daripada model itu sendiri, sehingga termasuk yang terbaik di bidang TTS. Proses pelatihannya yang efisien dan penggunaannya yang mudah menjadikannya terobosan dalam bidang sintesis ucapan. Artikel ini akan memperkenalkan secara detail performa, proses pelatihan, penggunaan, dan batasan model Kokoro.
Dalam pesatnya perkembangan kecerdasan buatan, teknologi sintesis ucapan semakin mendapat perhatian. Baru-baru ini, model sintesis ucapan terbaru bernama Kokoro secara resmi dirilis pada platform Hugging Face. Model tersebut memiliki 82 juta parameter, menandai tonggak penting dalam bidang sintesis ucapan.
Kokoro v0.19 menduduki peringkat pertama di papan peringkat TTS (text-to-speech) dalam beberapa minggu menjelang peluncurannya, bahkan mengungguli model lain dengan lebih banyak parameter. Dalam pengaturan mono, model ini mencapai hasil yang sebanding dengan model seperti parameter 467M XTTS v2 dan parameter 1,2B MetaVoice yang menggunakan data audio kurang dari 100 jam. Pencapaian ini menunjukkan bahwa hubungan antara performa model sintesis ucapan tradisional dan jumlah parameter, komputasi, dan data mungkin lebih signifikan dari perkiraan sebelumnya.
Dari segi penggunaan, pengguna hanya perlu menjalankan beberapa baris kode di Google Colab untuk memuat model dan paket suara serta menghasilkan audio berkualitas tinggi. Kokoro saat ini mendukung Bahasa Inggris AS dan Bahasa Inggris British, dan menyediakan beberapa paket suara untuk dipilih pengguna.
Proses pelatihan Kokoro menggunakan instans vRAM A10080GB Vast.ai, dan biaya sewanya relatif rendah, sehingga memastikan proses pelatihan yang efisien. Seluruh model dilatih menggunakan kurang dari 20 periode pelatihan dan kurang dari 100 jam data audio. Model Kokoro menggunakan data audio domain publik serta audio dari lisensi terbuka lainnya dalam pelatihan, untuk memastikan kepatuhan data.
Meskipun Kokoro berkinerja baik dalam sintesis ucapan, saat ini Kokoro tidak dapat mendukung kloning suara karena keterbatasan dalam data pelatihan dan arsitekturnya, dan data pelatihan utama berfokus pada bacaan dan narasi yang panjang daripada dialog.
Model: https://huggingface.co/hexgrad/Kokoro-82M
Pengalaman: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Menyorot:
Kokoro-82M adalah model sintesis ucapan yang baru dirilis dengan 82 juta parameter dan mendukung berbagai paket ucapan.
Model ini memiliki kinerja yang sangat baik di bidang TTS dan pernah menempati peringkat pertama dalam peringkat tersebut. Model ini hanya menggunakan kurang dari 100 jam data audio untuk pelatihan.
Model Kokoro dilatih menggunakan data berlisensi terbuka untuk memastikan kepatuhan, namun saat ini terdapat beberapa keterbatasan fungsional.
Secara keseluruhan, model Kokoro menunjukkan potensi yang mengesankan di bidang sintesis ucapan, dan pelatihan yang efisien serta kinerjanya yang luar biasa patut mendapat perhatian. Meski saat ini masih terdapat beberapa keterbatasan, saya yakin dengan terus berkembangnya teknologi, Kokoro akan memiliki skenario penerapan yang lebih luas di masa depan.