Bayangkan bisa menghasilkan musik atau efek suara berkualitas tinggi hanya dengan beberapa senandung atau ketukan. Ini bukan lagi impian yang jauh. Sketch2Sound, hasil penelitian AI yang inovatif, menghasilkan generasi audio berkualitas tinggi dengan menggabungkan imitasi suara dan perintah teks. Teknologi ini secara cerdik memanfaatkan tiga sinyal kontrol utama yaitu kenyaringan, kecerahan, dan nada yang diekstraksi dari imitasi suara, dan mengintegrasikannya ke dalam model difusi potensial dari teks ke audio, sehingga memandu AI untuk menghasilkan suara yang memenuhi persyaratan tertentu, sehingga membawa manfaat besar di bidang audio. penciptaan suara.
Teknologi inti Sketch2Sound adalah kemampuannya untuk mengekstrak tiga sinyal kontrol utama yang bervariasi terhadap waktu dari setiap tiruan suara (seperti tiruan vokal atau suara referensi): kenyaringan, kecerahan (pusat spektral) dan nada. Setelah sinyal kontrol ini dikodekan, sinyal tersebut ditambahkan ke model difusi dasar yang digunakan untuk menghasilkan teks-ke-suara, sehingga memandu AI untuk menghasilkan suara yang memenuhi persyaratan tertentu.
Hal yang paling mengesankan tentang teknologi ini adalah ringan dan efisiensinya. Sketch2Sound dibuat berdasarkan model difusi laten teks-ke-audio yang sudah ada, hanya memerlukan 40.000 langkah penyesuaian, dan hanya memerlukan satu lapisan linier untuk setiap sinyal kontrol, sehingga lebih ringkas dan efisien dibandingkan metode lain (seperti ControlNet). Untuk memungkinkan model mensintesis tiruan suara seperti "sketsa", para peneliti juga menerapkan filter median stokastik ke sinyal kontrol selama pelatihan, sehingga memungkinkannya beradaptasi dengan sinyal kontrol dengan karakteristik temporal yang fleksibel. Hasil eksperimen menunjukkan bahwa Sketch2Sound tidak hanya dapat mensintesis suara yang sesuai dengan sinyal kontrol input, namun juga menjaga kepatuhan terhadap perintah teks dan mencapai kualitas audio yang sebanding dengan garis dasar teks biasa.
Sketch2Sound memberi seniman suara cara baru untuk berkreasi. Mereka dapat memanfaatkan fleksibilitas semantik dari perintah tekstual, dikombinasikan dengan ekspresi dan ketepatan gerakan vokal atau imitasi, untuk menciptakan komposisi suara yang belum pernah ada sebelumnya. Hal ini mirip dengan seniman Foley tradisional yang menciptakan efek suara dengan memanipulasi objek, sedangkan Sketch2Sound memandu pembuatan suara melalui imitasi suara, menghadirkan sentuhan "manusiawi" pada penciptaan suara dan meningkatkan nilai artistik karya suara.
Sketch2Sound mampu mengatasi keterbatasannya dibandingkan metode interaksi teks-ke-audio tradisional. Di masa lalu, desainer suara perlu menghabiskan banyak waktu menyesuaikan karakteristik temporal suara yang dihasilkan untuk menyinkronkannya dengan efek visual. Sketch2Sound secara alami dapat mencapai sinkronisasi ini melalui imitasi suara, dan tidak terbatas pada imitasi suara manusia, jenis Suara apa pun imitasi dapat digunakan untuk menggerakkan model generatif ini.
Para peneliti juga mengembangkan teknik untuk menyesuaikan detail temporal sinyal kontrol dengan menerapkan filter median dengan ukuran jendela berbeda selama pelatihan. Hal ini memungkinkan seniman suara untuk mengontrol seberapa baik model generatif mematuhi keakuratan pengaturan waktu sinyal kontrol, sehingga meningkatkan kualitas suara yang sulit ditiru dengan sempurna. Dalam aplikasi praktis, pengguna dapat menemukan keseimbangan antara mengikuti imitasi suara secara ketat dan memastikan kualitas audio dengan menyesuaikan ukuran filter median.
Prinsip kerja Sketch2Sound adalah pertama-tama mengekstrak tiga sinyal kontrol kenyaringan, pusat massa spektrum, dan nada dari sinyal audio input. Sinyal kontrol ini kemudian diselaraskan dengan sinyal laten dalam model text-to-sound, dan model difusi laten disetel melalui lapisan proyeksi linier sederhana untuk menghasilkan suara yang diinginkan. Hasil eksperimen menunjukkan bahwa pengkondisian model melalui kontrol sinyal yang bervariasi terhadap waktu dapat meningkatkan kepatuhan terhadap sinyal ini secara signifikan, sekaligus memberikan dampak minimal pada kualitas audio dan kepatuhan teks.
Khususnya, para peneliti juga menemukan bahwa sinyal kontrol dapat memanipulasi semantik sinyal yang dihasilkan. Misalnya, saat menggunakan perintah teks "suasana hutan", jika semburan kenyaringan acak ditambahkan ke simulasi suara, model dapat mensintesis panggilan burung dalam semburan kenyaringan ini tanpa tambahan prompt "burung", yang menunjukkan bahwa model telah mempelajari Korelasi antara kenyaringan semburan dan kehadiran burung.
Tentu saja, ada beberapa batasan pada Sketch2Sound, seperti fakta bahwa pusat kendali massa dapat menggabungkan nada ruangan yang dimodelkan oleh suara masukan ke dalam audio yang dihasilkan, mungkin karena nada ruangan dikodekan oleh pusat massa ketika ada tidak ada peristiwa suara di audio input.
Secara keseluruhan, Sketch2Sound adalah model suara generatif yang kuat yang dapat menghasilkan suara melalui perintah teks dan kontrol yang bervariasi terhadap waktu (kenyaringan, kecerahan, nada). Ini dapat menghasilkan suara melalui imitasi suara dan kurva kontrol "sketsa", serta ringan dan efisien. Ini memberi seniman suara alat yang dapat dikontrol, berbasis gerakan, dan ekspresif yang dapat menghasilkan suara dengan pengaturan waktu yang fleksibel prospek aplikasi di bidang penciptaan musik dan desain suara game di masa depan.
Alamat makalah: https://arxiv.org/pdf/2412.08550
Kemunculan Sketch2Sound menandai era baru di bidang penciptaan suara. Ini memberi para seniman kebebasan dan kemungkinan berkreasi yang belum pernah terjadi sebelumnya, dan juga menghadirkan ruang imajinasi tanpa batas pada musik, permainan, film, dan bidang lainnya. Saya yakin dalam waktu dekat, teknologi ini akan digunakan secara lebih luas dan menghadirkan dunia suara yang lebih berwarna.