NVIDIA merilis "tongkat ajaib suara" Fugatto: Anda dapat memutar musik dengan kata-kata! - Artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-29 16:32:01

NVIDIA telah merilis model audio AI Fugatto yang luar biasa, yang seperti tongkat ajaib, memberi pengguna kemampuan untuk mengontrol suara melalui teks. Fugatto lebih dari sekadar generator audio sederhana. Ia dapat mencampur musik, ucapan, dan berbagai suara, serta memahami instruksi teks kompleks untuk mencapai pembuatan dan manipulasi audio yang belum pernah terjadi sebelumnya. Model ini memiliki prospek penerapan yang luas. Dari produksi musik hingga dubbing iklan, dari pembelajaran bahasa hingga pengembangan game, Fugatto dapat memberikan dukungan yang kuat, sangat meningkatkan efisiensi dan kreativitas. Kemampuan pemrosesan multi-bahasa dan multi-aksen yang kuat, serta kontrol detail suara yang presisi, menunjukkan kekuatan teknis terobosannya.

Masih ingat adegan dalam film fiksi ilmiah di mana sang protagonis mengayunkan tongkat ajaib dan dapat mengontrol suara sesuka hati? Sekarang, kemampuan ajaib ini bukan lagi sebuah fantasi! Model AI terbaru NVIDIA, Fugatto, seperti “tongkat ajaib suara” , memungkinkan pengguna mengontrol musik, suara, dan suara hanya dengan menggunakan teks, dan menciptakan berbagai efek pendengaran yang menakjubkan.

Fugatto, yang bernama lengkap "Fooundation Generative Audio Transformer Opus1", adalah model pemrosesan audio berdasarkan teknologi AI generatif. Tidak seperti model AI lainnya yang hanya dapat membuat musik atau memodifikasi ucapan, Fugatto memiliki kemampuan yang lebih kuat untuk menghasilkan atau mengubah campuran musik, ucapan, dan suara apa pun, serta mampu memahami dan menjalankan instruksi yang dimasukkan oleh pengguna melalui file teks dan audio.

Fitur-fitur canggih Fugatto telah memukau pengguna dari semua lapisan masyarakat, termasuk produser musik, biro iklan, pengembang alat pembelajaran bahasa, dan pengembang game. Produser musik dapat menggunakannya untuk bereksperimen dengan gaya musik, vokal, dan instrumen yang berbeda dengan cepat, dan bahkan menambahkan efek atau meningkatkan kualitas suara pada lagu yang sudah ada. Perusahaan periklanan dapat menggunakannya untuk menambahkan aksen dan emosi yang berbeda pada sulih suara iklan, dan dengan mudah mempromosikan iklan ke berbagai wilayah dan kelompok sasaran. Pengembang alat pembelajaran bahasa dapat menggunakan Fugatto untuk mengubah konten kursus menjadi suara apa pun yang diinginkan pengguna, seperti suara anggota keluarga atau teman, untuk menjadikan pembelajaran lebih personal. Pengembang game dapat menggunakan Fugatto untuk memodifikasi materi suara dalam game secara real time berdasarkan kemajuan game, atau membuat efek suara game baru berdasarkan perintah teks dan input audio.

Keajaiban Fugatto adalah kemampuannya untuk memahami dan menghasilkan suara seperti manusia. Tidak hanya dapat menjalankan instruksi spesifik yang diberikan pengguna, tetapi juga dapat menghasilkan suara baru yang belum pernah terdengar sebelumnya. Misalnya terompet bisa mengeluarkan suara anjing, dan saksofon mengeluarkan suara kucing.

音频声波

Kemampuan inovatif Fugatto lainnya adalah kemampuannya untuk menggabungkan instruksi yang dipelajari secara terpisah selama pelatihan untuk menghasilkan efek yang lebih kompleks. Misalnya, pengguna dapat memintanya untuk menghasilkan suara beraksen Prancis dengan emosi sedih. Yang lebih menakjubkan lagi adalah Fugatto juga memungkinkan pengguna untuk melakukan penyesuaian halus pada instruksi, seperti mengontrol ketebalan aksen atau intensitas kesedihan, memungkinkan pengguna untuk berkreasi seperti seorang seniman.

Fugatto juga dapat menghasilkan suara yang berubah seiring waktu, seperti badai yang mendekat dari kejauhan dan intensitas guntur yang meningkat sebelum perlahan menghilang di kejauhan. Pengguna dapat mengontrol proses perubahan suara dengan tepat dan menciptakan berbagai efek suara yang jelas.

Fugatto merupakan upaya kolaborasi antara peneliti dari seluruh dunia, dengan anggota tim dari negara-negara seperti India, Brasil, Tiongkok, Yordania, dan Korea Selatan. Latar belakang mereka yang beragam memberi Fugatto kemampuan multi-aksen dan multi-bahasa yang lebih baik.

Kelahiran Fugatto adalah puncak dari penelitian NVIDIA selama bertahun-tahun di bidang pemodelan ucapan, pengkodean audio, dan pemahaman audio. Ia menggunakan 2,5 miliar parameter dan dilatih pada cluster sistem NVIDIA DGX yang dilengkapi dengan 32 GPU NVIDIA H100Tensor Core.

Kemunculan Fugatto menandai era baru dalam teknologi pemrosesan audio. Ini akan membawa kemungkinan tak terbatas ke berbagai bidang seperti musik, film, permainan, pendidikan, dll. Mari kita nantikan hal ini menciptakan pesta pendengaran yang lebih menakjubkan!

Blog resmi: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Kemunculan Fugatto tidak hanya merupakan kemajuan teknologi, tetapi juga merupakan perluasan kreativitas yang tiada habisnya. Ini memberi seniman dan pengembang alat kreatif yang belum pernah ada sebelumnya dan menunjukkan kemungkinan tak terbatas dari teknologi audio masa depan. Mari kita tunggu dan lihat bagaimana Fugatto akan mengubah dunia pendengaran kita.