배경 소음 제거 Alibaba Tongyi Laboratory 오픈 소스 음성 처리 기술 ClearerVoice-Studio

저자：Eve Cole 업데이트 시간：2024-12-18 13:32:01

Alibaba Damo Academy Tongyi 연구소는 음성 품질과 명료도를 향상시키고 환경 소음, 반향 및 장비 픽업으로 인한 음성 명료도 문제를 해결하는 것을 목표로 하는 ClearerVoice-Studio라는 음성 처리 기술을 오픈 소스로 제공했습니다. 이 기술은 음성 향상, 음성 분리, 오디오 및 비디오 화자 추출과 같은 기능을 통합하고 고급 복합 도메인 딥 러닝 알고리즘을 채택하여 음성 소음 감소 및 분리 성능을 크게 향상시키고 음성 선명도를 최대한 유지하며 동시에 음성 왜곡이 최소화됩니다. 핵심 모델에는 2022 IEEE/INTER Speech DNS Challenge에서 전체 2위를 차지한 FRCRN 모델과 음성 분리 작업에서 우수한 성능을 발휘하여 개발자와 연구원에게 강력한 음성 처리 도구를 제공하는 MossFormer 시리즈 모델이 포함됩니다.

Alibaba Damo Academy의 Tongyi 연구소는 최근 음성 품질과 명료도 향상을 목표로 하는 ClearerVoice-Studio라는 음성 처리 기술을 오픈 소스화할 것이라고 발표했습니다. 음성 기술이 널리 적용됨에 따라 음성 품질에 대한 관심이 더욱 높아지고 있습니다. 특히 환경 소음, 잔향 및 장비 픽업이 있는 상황에서 음성 처리 기술에 대한 수요가 점점 더 시급해지고 있습니다.

ClearerVoice-Studio는 음성 향상, 음성 분리, 오디오 및 비디오 화자 추출과 같은 기능을 통합합니다. 복잡한 도메인 딥 러닝 알고리즘을 통합하여 음성 잡음 감소 및 분리 성능을 크게 향상시킵니다. 이 기술은 배경 소음을 최대한 제거하여 음성 명료도를 유지하면서 음성 왜곡을 최소화합니다.

阿里云、通义千问

ClearerVoice-Studio의 핵심 모델 및 알고리즘에는 2022 IEEE/INTER Speech DNS Challenge에서 전체 2위를 차지한 FRCRN 모델과 음성 분리 작업에서 좋은 성능을 보인 MossFormer 시리즈 모델이 포함됩니다. MossFormer2를 기반으로 한 48kHz 음성 향상 모델은 음성 왜곡을 크게 줄이면서 소음을 효과적으로 억제합니다.

Alibaba Tongyi Lab은 혁신적인 애플리케이션 구현을 돕기 위해 ClearerVoice-Studio 플랫폼을 통해 개발자, 연구원 및 기업에 강력한 음성 처리 도구를 제공하고자 합니다. 사용자는 온라인으로 데모를 체험하고, 소음이 포함된 음성 파일을 준비하여 지정된 페이지에 업로드하고, 원클릭으로 처리하여 온라인으로 듣거나 처리 결과를 다운로드할 수 있으며, 즉시 깨끗한 음질과 뛰어난 소음 감소 효과를 얻을 수 있습니다.

GitHub 저장소: https://github.com/modelscope/ClearerVoice-Studio

온라인 체험 데모: https://huggingface.co/spaces/alibabasglab/ClearVoice

ClearerVoice-Studio는 사용자가 빠르게 시작할 수 있도록 편리한 온라인 경험과 GitHub 창고를 제공합니다. 이 기술의 오픈 소스는 음성 처리 기술의 발전과 적용을 촉진하고 더 많은 음성 관련 분야에 혁신을 가져올 것입니다. 우리는 앞으로 더 폭넓은 적용 시나리오를 기대합니다.