NVIDIA는 마술 지팡이와도 같은 놀라운 AI 오디오 모델 Fugatto를 출시하여 사용자에게 텍스트를 통해 사운드를 제어할 수 있는 기능을 제공합니다. Fugatto는 단순한 오디오 생성기 그 이상입니다. 음악, 음성 및 다양한 사운드를 혼합하고 복잡한 텍스트 지침을 이해하여 전례 없는 오디오 생성 및 조작을 수행할 수 있습니다. 이 모델은 음악 제작부터 광고 더빙까지, 언어 학습부터 게임 개발까지 광범위한 응용 가능성을 갖고 있으며, Fugatto는 효율성과 창의성을 크게 향상시키는 강력한 지원을 제공할 수 있습니다. 강력한 다중 언어 및 다중 악센트 처리 기능은 물론 사운드 세부 사항의 정밀한 제어는 획기적인 기술적 강점을 보여줍니다.
공상과학 영화에서 주인공이 마술봉을 휘둘러 소리를 마음대로 조종하는 장면을 기억하시나요? 이제 이 마법 능력은 더 이상 환상이 아닙니다! , 사용자는 텍스트만으로 음악, 소리 및 음성을 제어하고 다양하고 멋진 청각 효과를 만들 수 있습니다.
풀네임이 "Foundational Generative Audio Transformer Opus1"인 Fugatto는 생성 AI 기술을 기반으로 한 오디오 처리 모델입니다. 음악을 만들거나 음성을 수정할 수 있는 다른 AI 모델과 달리 Fugatto는 음악, 음성, 소리의 혼합을 생성하거나 변환하는 더욱 강력한 기능을 갖추고 있으며 사용자가 텍스트 및 오디오 파일을 통해 입력한 명령을 이해하고 실행할 수 있습니다.
Fugatto의 강력한 기능은 음악 제작자, 광고 대행사, 언어 학습 도구 개발자, 게임 개발자 등 각계각층의 사용자를 놀라게 했습니다. 음악 제작자는 이를 사용하여 다양한 음악 스타일, 보컬 및 악기를 신속하게 실험하고 기존 노래에 효과를 추가하거나 음질을 향상시킬 수도 있습니다. 광고 회사는 이를 사용하여 광고 더빙에 다양한 악센트와 감정을 추가할 수 있으며, 다양한 지역과 대상 그룹에 광고를 쉽게 홍보할 수 있습니다. 언어 학습 도구 개발자는 Fugatto를 사용하여 강좌 콘텐츠를 가족이나 친구 등 사용자가 원하는 음성으로 변환하여 학습을 보다 개인화할 수 있습니다. 게임 개발자는 Fugatto를 사용하여 게임 진행 상황에 따라 실시간으로 게임 내 사운드 자료를 수정하거나 텍스트 명령 및 오디오 입력을 기반으로 새로운 게임 사운드 효과를 만들 수 있습니다.
Fugatto의 마법은 인간처럼 소리를 이해하고 생성하는 능력입니다. 사용자가 제공한 특정 지시를 수행할 수 있을 뿐만 아니라 이전에 들어본 적이 없는 새로운 소리를 생성할 수도 있습니다. 예를 들어, 트럼펫은 개 소리를 내고, 색소폰은 고양이 소리를 낼 수 있습니다. 사용자가 설명할 수 있는 한 Fugatto는 이를 만들어낼 수 있습니다.
Fugatto의 또 다른 획기적인 기능은 훈련 중에 별도로 학습한 지침을 결합하여 보다 복잡한 효과를 생성하는 기능입니다. 예를 들어, 사용자는 슬픈 감정이 담긴 프랑스어 억양의 목소리를 생성하도록 요청할 수 있습니다. 더욱 놀라운 점은 Fugatto를 사용하면 악센트의 굵기나 슬픔의 강도를 조절하는 등 지시사항을 미세하게 조정할 수 있어 사용자가 예술가처럼 창작할 수 있다는 것입니다.
Fugatto는 또한 멀리서 다가오는 폭풍우와 천둥소리가 강렬하게 쌓였다가 천천히 먼 곳으로 사라지는 등 시간이 지남에 따라 변하는 소리를 생성할 수도 있습니다. 사용자는 사운드 변경 프로세스를 정밀하게 제어하고 다양하고 생생한 사운드 효과를 만들 수 있습니다.
Fugatto는 인도, 브라질, 중국, 요르단 및 한국과 같은 국가의 팀원과 전 세계 연구원 간의 공동 작업입니다. 그들의 다양한 배경 덕분에 Fugatto는 더욱 뛰어난 다중 악센트 및 다중 언어 능력을 갖추게 되었습니다.
Fugatto의 탄생은 음성 모델링, 오디오 코딩, 오디오 이해 분야에 대한 NVIDIA의 수년간의 연구의 정점입니다. 25억 개의 매개변수를 사용하며 32개의 NVIDIA H100Tensor 코어 GPU가 장착된 NVIDIA DGX 시스템 클러스터에서 훈련됩니다.
Fugatto의 등장은 오디오 처리 기술의 새로운 시대를 열었습니다. 음악, 영화, 게임, 교육 등 다양한 분야에 무한한 가능성을 선사할 예정입니다. 더욱 놀라운 청각의 향연을 만들어가길 기대하겠습니다!
공식 블로그: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
Fugatto의 등장은 기술의 발전일 뿐만 아니라 창의성의 무한한 확장이기도 합니다. 이는 아티스트와 개발자에게 전례 없는 창의적인 도구를 제공하고 미래 오디오 기술의 무한한 가능성을 예고합니다. Fugatto가 우리의 청각 세계를 어떻게 변화시킬지 기다려 봅시다.