Diproduksi oleh NVIDIA! Model audio AI Fugatto: memasukkan teks dan audio untuk menghasilkan musik dan efek suara - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-01-25 11:00:03

NVIDIA telah meluncurkan model AI generasi dan pemrosesan audio revolusioner yang disebut Fugatto, yang memiliki 2,5 miliar parameter dan dirancang untuk menghadirkan fleksibilitas dan kreativitas yang belum pernah ada sebelumnya di bidang musik dan penciptaan suara. Fugatto menggabungkan perintah teks dan teknologi sintesis audio canggih, mendukung input teks dan audio, menerobos batasan model pembuatan audio tradisional, memungkinkan pengguna membuat dan memodifikasi secara real time, dan menghasilkan berbagai efek suara baru. Teknologi inovatif "Composable Audio Representation Transformation" (ComposableART) memberi pengguna kendali yang belum pernah ada sebelumnya dan kendali presisi atas suara.

Di bidang musik dan kreasi suara, perpaduan teknologi dan kreativitas selalu menghadapi banyak tantangan. Model AI yang ada seringkali hanya bagus dalam tugas tertentu dan kurang memiliki kemampuan beradaptasi yang luas, sehingga membatasi peran tambahan AI dalam produksi musik. Agar AI dapat melayani produksi musik dan audio dengan lebih baik, sangat dibutuhkan model universal yang dapat merespons berbagai kebutuhan kreatif secara fleksibel. Untuk tujuan ini, NVIDIA meluncurkan Fugatto, model pembuatan dan pemrosesan audio dengan 2,5 miliar parameter.

Fugatto dirancang untuk memberikan ruang yang sangat fleksibel untuk input suara dan eksperimen kreatif dengan menggabungkan perintah teks dengan kemampuan sintesis audio tingkat lanjut. Misalnya, dapat mengubah melodi piano menjadi vokal yang dinyanyikan, atau memberikan suara yang tidak terduga pada terompet.

Fugatto tidak hanya mendukung input teks, tetapi juga mendukung input audio opsional, mendobrak batasan model pembuatan audio tradisional, memungkinkan seniman dan pengembang membuat dan memodifikasi secara real time, dan menghasilkan jenis suara baru dengan lancar.

Di sisi teknis, Fugatto menggunakan pendekatan inovatif untuk menghasilkan data yang melampaui pembelajaran tradisional yang diawasi. Pelatihannya tidak hanya bergantung pada kumpulan data biasa, tetapi juga pada kumpulan data yang dihasilkan secara khusus, sehingga menciptakan beragam tugas audio dan konversi. Selain itu, Fugatto menggunakan model bahasa besar (LLM) untuk meningkatkan kemampuan pembuatan instruksi dan lebih memahami hubungan antara perintah audio dan teks.

Inovasi penting adalah Composable Audio Representation Transform (ComposableART), sebuah teknik yang digunakan pada waktu inferensi untuk menggabungkan, menginterpolasi, atau meniadakan instruksi pembuatan audio yang berbeda secara fleksibel. ComposableART memberi pengguna kontrol lebih besar atas proses sintesis audio, memungkinkan mereka menavigasi palet sonik Fugatto dengan tepat untuk menciptakan fenomena sonik yang unik.

Arsitektur Fugatto didasarkan pada model Transformer yang disempurnakan dan menggunakan modifikasi spesifik seperti normalisasi lapisan adaptif untuk menjaga konsistensi dalam berbagai kondisi masukan dan mendukung instruksi kombinasi yang kompleks. Tes awal menunjukkan bahwa Fugatto berkinerja baik pada tolok ukur umum, khususnya dalam sintesis dan transformasi suara, menunjukkan kemampuan yang lebih besar dibandingkan model profesional lainnya.

Peluncuran Fugatto menandai kemajuan penting dalam AI generasi audio, menerobos keterbatasan tradisional dan menyediakan alat yang kuat dan fleksibel untuk produksi audio yang kreatif. Potensi penerapannya di berbagai bidang seperti musik, permainan, hiburan, dan pendidikan berarti bahwa teknologi AI akan terus memainkan peran penting dalam membantu kreativitas manusia.

Blog resmi: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Makalah: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

Menyorot:

Fugatto adalah model AI audio yang diluncurkan oleh NVIDIA. Ia memiliki 2,5 miliar parameter, mendukung input teks dan audio, serta membantu pembuatan musik dan suara.

Dengan menggunakan metode pembuatan data yang inovatif dan teknologi transformasi representasi audio yang dapat digabungkan, pengguna dapat secara fleksibel menghasilkan dan memodifikasi suara.

Tes awal menunjukkan bahwa Fugatto mengungguli beberapa model profesional dalam sintesis dan transformasi audio, menunjukkan potensi kreatif yang kuat.

Secara keseluruhan, Fugatto, dengan fungsinya yang kuat dan fitur-fiturnya yang fleksibel, menghadirkan kemungkinan-kemungkinan baru dalam bidang kreasi musik dan desain suara, yang menunjukkan bahwa penerapan AI dalam industri kreatif akan lebih luas dan mendalam. Kami menantikan Fugatto memberi kami lebih banyak kejutan di masa depan.