Downcodes의 편집자는 무사시노 대학교 데이터 과학부의 연구원들이 최근 획기적인 발전을 이루었고 피아노 음악을 더 정확하게 자동으로 생성할 수 있는 AMT-APC라는 새로운 알고리즘을 개발했다는 사실을 알게 되었습니다. 이 기술은 AMT(Automatic Music Transcription) 모델을 기반으로 하며, 스마트한 미세 조정을 통해 생성된 피아노 음악의 음질과 표현력을 크게 향상시켜 이전 자동 피아노 음악 세대의 음질 충실도 및 연주 문제를 극복합니다. 전력 부족 등 병목 현상이 발생합니다. 이 알고리즘의 혁신은 고유한 2단계 전략에 있습니다. 먼저 사전 훈련된 AMT 모델을 사용하여 음악의 다양한 사운드 세부 사항을 캡처한 다음 원본 음악 오디오와 피아노가 포함된 쌍 데이터 세트를 통해 미세 조정합니다. 연주 MIDI 파일의 결과는 원곡의 스타일에 더 가까운 피아노 연주 버전입니다. 또한, 연구진은 생성된 피아노 음악의 표현력을 더욱 향상시키기 위해 '스타일 벡터'라는 개념도 도입했습니다.
오랫동안 피아노 음악을 자동으로 생성하는 기술은 음질 충실도와 표현력이 부족하다는 문제에 직면해 왔습니다. 기존 모델은 단순한 멜로디와 리듬만 생성할 수 있을 뿐, 원곡의 풍부한 디테일과 감정을 담아내지 못하는 경우가 많습니다.
AMT-APC 알고리즘은 먼저 사전 훈련된 AMT 모델을 사용하여 음악의 다양한 사운드를 정확하게 "캡처"한 다음 미세 조정을 통해 자동 피아노 연주(APC) 작업에 적용합니다.
AMT-APC 알고리즘의 핵심은 2단계 전략에 있습니다.
1단계: 사전 훈련. 연구진은 hFT-Transformer라는 고성능 AMT 모델을 기본으로 선택하고 MAESTRO 데이터 세트를 사용하여 추가로 훈련시켜 더 긴 음악 클립을 처리할 수 있도록 했습니다.
2단계: 미세 조정. 연구원들은 원본 음악 오디오와 피아노 연주 MIDI 파일을 포함하는 쌍을 이루는 데이터 세트를 생성하고, 이 데이터 세트를 사용하여 AMT 모델을 미세 조정하여 원본 음악의 스타일과 더욱 일치하는 피아노 연주 버전을 생성할 수 있었습니다. .
생성된 피아노 음악을 더욱 표현력 있게 만들기 위해 연구원들은 "스타일 벡터"라는 개념도 도입했습니다. 스타일 벡터는 음 시작률 분포, 벨로시티 분포, 피치 분포를 포함하여 각 피아노 연주 버전에서 추출된 기능 세트입니다. AMT-APC 알고리즘은 원본 음악 오디오와 함께 스타일 벡터를 모델에 입력함으로써 다양한 연주 스타일을 학습하고 이를 생성된 피아노 음악에 반영할 수 있습니다.
실험 결과에 따르면 기존 자동 피아노 연주 모델과 비교하여 AMT-APC 알고리즘으로 생성된 피아노 음악은 음질 충실도와 표현력이 크게 향상되었습니다. 원곡과 생성된 오디오 간의 유사성을 평가하기 위해 Qmax라는 지표를 사용함으로써 AMT-APC 모델은 가장 낮은 Qmax 값을 달성했습니다. 이는 원곡의 특성을 더 잘 복원할 수 있음을 의미합니다.
본 연구는 AMT와 APC가 연관성이 높은 작업임을 보여주며, 기존 AMT 연구 결과를 활용하면 보다 발전된 APC 모델을 개발하는 데 도움이 될 수 있습니다. 앞으로 연구원들은 보다 현실적이고 표현력이 풍부한 자동 피아노 연주를 달성하기 위해 APC 애플리케이션에 더 적합한 AMT 모델을 추가로 탐색할 계획입니다.
프로젝트 주소: https://misya11p.github.io/amt-apc/
논문 주소: https://arxiv.org/pdf/2409.14086
AMT-APC 알고리즘의 성공은 자동 음악 생성 분야에 새로운 가능성을 가져왔으며, 앞으로 더욱 현실적이고 표현력이 풍부한 자동 음악 생성 기술이 등장할 것임을 시사합니다. 우리는 미래의 연구자들이 이를 기반으로 계속해서 탐구하고 우리에게 더 많은 놀라움을 가져다주기를 기대합니다!