다운코드 편집자 보고서: Johns Hopkins University와 Tencent AI Lab은 EzAudio라는 획기적인 텍스트-오디오 생성 모델을 공동으로 개발했습니다. EzAudio의 효율적이고 고품질 오디오 변환 기능은 인공 지능 및 오디오 기술 분야에서 큰 발전을 이루었습니다. EzAudio는 AdaLN-SOLA와 같은 고급 기술과 결합된 혁신적인 오디오 파형 잠재 공간 기술을 사용하여 객관적이고 주관적인 평가 모두에서 기존 오픈 소스 모델을 능가합니다. 모델의 오픈 소스 코드, 데이터 세트 및 모델 체크포인트는 추가 연구 및 적용을 장려하기 위해 공개적으로 제공됩니다.
EzAudio는 기존의 스펙트로그램이 아닌 오디오 파형의 잠재 공간을 활용하여 작동합니다. 이는 추가적인 신경 보코더 없이도 높은 시간적 해상도에서 작동할 수 있는 혁신입니다.
EzAudio-DiT(Diffusion Transformer)라고 불리는 EzAudio의 아키텍처는 성능과 효율성을 향상시키기 위해 다양한 기술 혁신을 사용합니다. 여기에는 새로운 적응형 레이어 정규화 기술인 AdaLN-SOLA, 롱홉 연결, RoPE(회전 위치 임베딩)와 같은 고급 위치 인코딩 기술이 포함됩니다.
연구원들은 EzAudio에서 생성된 오디오 샘플이 너무 현실적이어서 객관적인 평가와 주관적인 평가 모두 기존 오픈 소스 모델을 능가한다고 말합니다.
현재 AI 오디오 세대 시장은 빠르게 성장하고 있다. ElevenLabs와 같은 유명 기업은 최근 텍스트 음성 변환을 위한 iOS 앱을 출시하여 AI 오디오 도구에 대한 소비자의 높은 관심을 보여주었습니다. 이와 동시에 마이크로소프트, 구글 등 거대 기술 기업들도 AI 음성 시뮬레이션 기술에 대한 투자를 늘리고 있다.
Gartner의 예측에 따르면 2027년까지 생성 AI 솔루션의 40%가 텍스트, 이미지 및 오디오의 기능을 결합하는 다중 모드가 될 것이며 이는 EzAudio와 같은 고품질 오디오 생성 모델이 계속해서 중요한 역할을 할 것임을 의미합니다. AI 분야에서의 역할.
EzAudio 팀은 투명성을 강조하고 이 분야에 대한 추가 연구를 장려하면서 코드, 데이터 세트 및 모델 체크포인트를 공개적으로 제공했습니다.
연구원들은 EzAudio가 음향 효과 생성을 넘어서 음성 및 음악 제작과 같은 영역과 관련된 응용 분야를 가질 수 있다고 믿습니다. 기술이 계속해서 발전함에 따라 엔터테인먼트, 미디어, 부가 서비스, 가상 비서 등 산업 분야에서 폭넓게 활용될 것으로 예상됩니다.
데모: https://huggingface.co/spaces/OpenSound/EzAudio
프로젝트 입구: https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
가장 밝은 부분:
EzAudio는 Johns Hopkins University가 Tencent와 협력하여 출시한 새로운 텍스트-오디오 생성 모델로, 오디오 기술의 획기적인 발전을 의미합니다.
? 혁신적인 아키텍처와 기술을 통해 이 모델에서 생성된 오디오 샘플은 기존 오픈 소스 모델보다 품질이 우수하고 광범위한 응용 가능성을 가지고 있습니다.
기술이 발전함에 따라 윤리적이고 책임감 있는 사용 문제가 점차 대두되고 있으며 EzAudio의 공개 연구 코드는 위험과 이점에 대한 향후 조사를 위한 광범위한 기회도 제공합니다.
EzAudio의 오픈 소스와 높은 성능은 AI 오디오 생성 분야에서 상당한 이점을 제공하며 향후 적용 전망은 넓지만 윤리적, 사회적 영향에도 주의를 기울일 필요가 있습니다. 다운코드 편집자는 이 기술의 발전과 적용에 계속해서 관심을 기울일 것입니다.