NVIDIA에서 제작했습니다! AI 오디오 모델 Fugatto: 텍스트와 오디오를 입력하여 음악과 음향 효과 생성 - AI 기사

저자：Eve Cole 업데이트 시간：2025-01-25 11:00:03

NVIDIA는 25억 개의 매개변수를 갖고 음악 및 사운드 제작 분야에 전례 없는 유연성과 창의성을 제공하도록 설계된 Fugatto라는 혁신적인 오디오 생성 및 처리 AI 모델을 출시했습니다. Fugatto는 텍스트 프롬프트와 고급 오디오 합성 기술을 결합하고 텍스트 및 오디오 입력을 지원하며 기존 오디오 생성 모델의 한계를 극복하고 사용자가 실시간으로 생성 및 수정할 수 있도록 하며 다양하고 새로운 사운드 효과를 생성할 수 있습니다. 혁신적인 "Composable Audio Representation Transformation"(ComposableART) 기술은 사용자에게 사운드에 대한 전례 없는 제어와 정밀한 제어를 제공합니다.

음악과 사운드 창작 분야에서 기술과 창의성의 결합은 항상 많은 도전에 직면해 왔습니다. 기존 AI 모델은 특정 작업에만 능숙하고 광범위한 적응성이 부족하여 음악 제작에서 AI의 보조 역할이 제한되는 경우가 많습니다. AI가 음악 및 오디오 제작에 더 나은 서비스를 제공하기 위해서는 다양한 창작 요구에 유연하게 대응할 수 있는 범용 모델이 시급히 필요합니다. 이를 위해 NVIDIA는 25억 개의 매개변수를 갖춘 오디오 생성 및 처리 모델인 Fugatto를 출시했습니다.

Fugatto는 텍스트 프롬프트와 고급 오디오 합성 기능을 결합하여 음성 입력 및 창의적인 실험을 위한 매우 유연한 공간을 제공하도록 설계되었습니다. 예를 들어, 피아노 멜로디를 노래하는 보컬로 변환하거나 트럼펫에 예상치 못한 사운드를 줄 수 있습니다.

Fugatto는 텍스트 입력뿐만 아니라 선택적 오디오 입력도 지원하여 기존 오디오 생성 모델의 한계를 깨고 아티스트와 개발자가 실시간으로 생성 및 수정하고 새로운 유형의 사운드를 원활하게 생성할 수 있도록 해줍니다.

기술적인 측면에서 Fugatto는 전통적인 지도 학습을 뛰어넘는 데이터 생성에 대한 혁신적인 접근 방식을 사용합니다. 훈련은 일반 데이터세트뿐만 아니라 특별히 생성된 데이터세트에도 의존하여 매우 다양한 오디오 및 변환 작업을 생성합니다. 또한 Fugatto는 LLM(대형 언어 모델)을 사용하여 명령어 생성 기능을 향상하고 오디오와 텍스트 프롬프트 간의 관계를 더 잘 이해합니다.

중요한 혁신은 추론 시 다양한 오디오 생성 명령을 유연하게 결합, 보간 또는 부정하는 데 사용되는 기술인 ComposableART(Composable Audio Representation Transform)입니다. ComposableART를 사용하면 사용자가 오디오 합성 프로세스를 더 효과적으로 제어할 수 있으므로 Fugatto의 음향 팔레트를 정확하게 탐색하여 독특한 음향 현상을 만들 수 있습니다.

Fugatto의 아키텍처는 향상된 Transformer 모델을 기반으로 하며 적응형 레이어 정규화와 같은 특정 수정 사항을 사용하여 여러 입력 조건에서 일관성을 유지하고 복잡한 조합 지침을 지원합니다. 예비 테스트에 따르면 Fugatto는 일반적인 벤치마크, 특히 사운드 합성 및 변환에서 좋은 성능을 보여 다른 전문 모델보다 더 뛰어난 기능을 보여줍니다.

Fugatto의 출시는 오디오 생성 AI의 중요한 발전을 의미하며 기존의 한계를 극복하고 창의적인 오디오 제작을 위한 강력하고 유연한 도구를 제공합니다. 음악, 게임, 엔터테인먼트, 교육 등 다양한 분야에 잠재적으로 응용될 수 있다는 것은 AI 기술이 계속해서 인간의 창의성을 지원하는 데 중요한 역할을 할 것임을 의미합니다.

공식 블로그: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

논문: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf

가장 밝은 부분:

Fugatto는 NVIDIA가 출시한 오디오 AI 모델로, 25억 개의 매개변수를 갖고 있으며 텍스트 및 오디오 입력을 지원하고 음악 및 사운드 생성을 지원합니다.

혁신적인 데이터 생성 방법과 결합 가능한 오디오 표현 변환 기술을 사용하여 사용자는 사운드를 유연하게 생성하고 수정할 수 있습니다.

예비 테스트에 따르면 Fugatto는 오디오 합성 및 변환 분야에서 여러 전문 모델보다 뛰어난 성능을 보여 강력한 창의적 잠재력을 입증했습니다.

전체적으로 강력한 기능과 유연한 기능을 갖춘 Fugatto는 음악 창작 및 사운드 디자인 분야에 새로운 가능성을 제공하며, 이는 창작 산업에서 AI의 적용이 더욱 광범위하고 심층적이 될 것임을 나타냅니다. Fugatto가 앞으로 더 많은 놀라움을 선사할 수 있기를 기대합니다.