ByteDance는 텍스트 설명, 오디오 참조, 악보 및 음성 안내를 기반으로 고품질 음악을 생성할 수 있는 음악 마술사와 같은 새로운 음악 생성 도구인 Seed-Music을 출시했습니다. Seed-Music은 자동회귀 언어 모델과 확산 모델을 결합하여 사용자에게 가사와 음악, 멜로디 각색, 음성 변환 등 음악 생성에 대한 전례 없는 제어 기능을 제공합니다. Downcodes의 편집자는 이 놀라운 음악 생성 모델에 대해 자세히 알아볼 수 있도록 안내합니다.
최근 ByteDance는 Seed-Music이라는 새로운 음악 제작 도구를 출시했습니다. 이 마법 같은 음악 생성 모델을 사용하면 다양한 입력 방법(예: 텍스트 설명, 오디오 참조, 악보, 음성 프롬프트 등)을 통해 쉽게 음악을 생성할 수 있습니다.
Seed-Music은 자동 회귀 언어 모델과 확산 모델을 결합하여 고품질의 음악 작품을 생성할 뿐만 아니라 음악의 세부 사항을 정밀하게 제어할 수 있습니다. 음악에 가사를 추가하고 싶거나 멜로디를 적용하고 싶다면 여기에는 문제가 없습니다. 짧은 음성 클립을 업로드하면 시스템이 자동으로 이를 완전한 노래로 변환하므로 편리하고 효율적입니다.
강력한 Seed-Music은 성악 및 기악 생성을 지원할 뿐만 아니라 노래 음성 합성, 노래 음성 변환 및 음악 편집과 같은 일련의 기능을 포함하여 다양한 사용자의 요구를 충족할 수 있습니다. 간단한 텍스트 설명을 통해 팝송을 생성할 수 있고, 오디오 프롬프트를 통해 음악 스타일을 조정할 수도 있는데, 이는 정말 상쾌합니다.
더 흥미로운 점은 Seed-Music의 아키텍처가 표현 학습 모듈, 생성 모듈, 렌더링 모듈의 세 가지 모듈로 나누어져 있다는 점입니다. 이 모듈은 밴드처럼 함께 작동하여 다중 모드 입력에서 고품질 음악을 생성합니다.
표현 학습 모듈은 원본 오디오 신호를 다양한 음악 생성 및 편집 작업에 적합한 세 가지 중간 표현으로 압축합니다. 생성 모듈은 자동 회귀 모델 및 확산 모델을 통해 사용자 입력을 음악 표현으로 변환합니다. 최종 렌더링 모듈은 이러한 중간 표현을 귀가 즐길 수 있는 고품질 오디오로 변환하는 역할을 합니다.
음악의 품질을 보장하기 위해 Seed-Music은 다양한 기술을 사용합니다. 자동 회귀 언어 모델은 점차적으로 오디오 기호를 생성하고, 확산 모델은 잡음 제거를 통해 음악을 더 명확하게 만들고, 보코더는 이러한 음악 "코드"를 읽을 수 있는 고음질로 변환합니다. 소리가 재생되었습니다.
Seed-Music의 훈련 과정도 매우 흥미롭습니다. 사전 훈련, 미세 조정, 사후 훈련의 세 단계로 나누어져 있습니다. 대규모 음악 데이터를 통해 모델은 기본 역량을 획득한 후, Fine-tuning을 통해 특정 작업의 성능을 향상시키고, 최종적으로 생성된 결과를 강화 학습을 통해 지속적으로 최적화합니다.
프로젝트 주소: https://team.doubao.com/en/special/seed-music
Seed-Music의 등장은 의심할 바 없이 음악 창작에 새로운 가능성을 가져왔습니다. 편리한 작동과 강력한 기능은 음악 창작의 문턱을 크게 낮춰 더 많은 사람들이 음악 창작의 즐거움을 경험할 수 있게 해줄 것입니다. 앞으로 더 많은 놀라움을 선사할 Seed-Music을 기대합니다!