NVIDIA merilis "tongkat ajaib suara" Fugatto: Anda dapat memutar musik dengan kata-kata!

Penulis：Eve Cole Waktu Pembaruan：2025-01-09 09:24:01

Fugatto, model AI terbaru yang dirilis NVIDIA, nampaknya memiliki kekuatan magis dan merevolusi sepenuhnya teknologi pemrosesan audio. Itu tidak hanya dapat menghasilkan campuran musik, suara dan suara, tetapi juga memahami dan melaksanakan instruksi yang dimasukkan oleh pengguna melalui file teks dan audio, sehingga memungkinkan untuk menciptakan berbagai efek pendengaran yang menakjubkan. Editor Downcodes akan membawa Anda untuk memiliki pemahaman mendalam tentang model AI yang mengganggu ini dan melihat bagaimana model tersebut dapat mewujudkan adegan dari film fiksi ilmiah menjadi kenyataan.

Fugatto, yang bernama lengkap "Fooundation Generative Audio Transformer Opus1", adalah model pemrosesan audio berdasarkan teknologi AI generatif. Tidak seperti model AI lainnya yang hanya dapat membuat musik atau memodifikasi ucapan, Fugatto memiliki kemampuan yang lebih kuat untuk menghasilkan atau mengubah campuran musik, ucapan, dan suara apa pun, serta mampu memahami dan menjalankan instruksi yang dimasukkan oleh pengguna melalui file teks dan audio.

Fitur-fitur canggih Fugatto telah memukau pengguna dari semua lapisan masyarakat, termasuk produser musik, biro iklan, pengembang alat pembelajaran bahasa, dan pengembang game. Produser musik dapat menggunakannya untuk bereksperimen dengan gaya musik, vokal, dan instrumen yang berbeda dengan cepat, dan bahkan menambahkan efek atau meningkatkan kualitas suara pada lagu yang sudah ada. Perusahaan periklanan dapat menggunakannya untuk menambahkan aksen dan emosi yang berbeda pada sulih suara iklan, dan dengan mudah mempromosikan iklan ke berbagai wilayah dan kelompok sasaran. Pengembang alat pembelajaran bahasa dapat menggunakan Fugatto untuk mengubah konten kursus menjadi suara apa pun yang diinginkan pengguna, seperti suara anggota keluarga atau teman, untuk menjadikan pembelajaran lebih personal. Pengembang game dapat menggunakan Fugatto untuk memodifikasi materi suara dalam game secara real time berdasarkan kemajuan game, atau membuat efek suara game baru berdasarkan perintah teks dan input audio.

Keajaiban Fugatto adalah kemampuannya untuk memahami dan menghasilkan suara seperti manusia. Tidak hanya dapat menjalankan instruksi spesifik yang diberikan pengguna, tetapi juga dapat menghasilkan suara baru yang belum pernah terdengar sebelumnya. Misalnya terompet bisa mengeluarkan suara anjing, dan saksofon mengeluarkan suara kucing.

Catatan sumber gambar: Gambar dihasilkan oleh AI, dan gambar tersebut disahkan oleh penyedia layanan Midjourney

Kemampuan inovatif Fugatto lainnya adalah kemampuannya untuk menggabungkan instruksi yang dipelajari secara terpisah selama pelatihan untuk menghasilkan efek yang lebih kompleks. Misalnya, pengguna dapat memintanya untuk menghasilkan suara beraksen Prancis dengan emosi sedih. Yang lebih menakjubkan lagi adalah Fugatto juga memungkinkan pengguna untuk melakukan penyesuaian halus pada instruksi, seperti mengontrol ketebalan aksen atau intensitas kesedihan, memungkinkan pengguna untuk berkreasi seperti seorang seniman.

Fugatto juga dapat menghasilkan suara yang berubah seiring waktu, seperti badai yang mendekat dari kejauhan dan intensitas guntur yang meningkat sebelum perlahan menghilang di kejauhan. Pengguna dapat mengontrol proses perubahan suara dengan tepat dan menciptakan berbagai efek suara yang jelas.

Fugatto merupakan upaya kolaborasi antara peneliti dari seluruh dunia, dengan anggota tim dari negara-negara seperti India, Brasil, Tiongkok, Yordania, dan Korea Selatan. Latar belakang mereka yang beragam memberi Fugatto kemampuan multi-aksen dan multi-bahasa yang lebih baik.

Kelahiran Fugatto adalah puncak dari penelitian NVIDIA selama bertahun-tahun di bidang pemodelan ucapan, pengkodean audio, dan pemahaman audio. Ia menggunakan 2,5 miliar parameter dan dilatih pada cluster sistem NVIDIA DGX yang dilengkapi dengan 32 GPU NVIDIA H100Tensor Core.

Kemunculan Fugatto menandai era baru dalam teknologi pemrosesan audio. Ini akan membawa kemungkinan tak terbatas ke berbagai bidang seperti musik, film, permainan, pendidikan, dll. Mari kita nantikan hal ini menciptakan pesta pendengaran yang lebih menakjubkan!

Blog resmi: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Kemunculan Fugatto menunjukkan potensi besar kecerdasan buatan di bidang audio. Fungsinya yang kuat dan metode pengoperasian yang mudah tidak diragukan lagi akan menghadirkan inovasi yang belum pernah terjadi sebelumnya di semua lapisan masyarakat. Mari kita tunggu dan lihat bagaimana Fugatto akan terus membentuk dunia pendengaran kita di masa depan!