Google의 최신 음성 세대 기술은 다시 업계 표준을 새로 고쳤습니다. 이 획기적인 기술은 3 초 만에 최대 2 분의 자연 대화를 생성 할뿐만 아니라 여러 스피커의 음성 일관성과 음질 성능을 보장합니다. 이 기술은 Gemini Live 및 Project Astra와 같은 여러 Google 제품에 사용되었으며 사람들이 전 세계의 디지털 어시스턴트 및 AI 도구와 상호 작용하는 방식을 바꾸고 있습니다.
지난 몇 년 동안 Google은 오디오 세대 분야의 연구에 중점을 두었습니다. 그들이 개발 한 모델은 텍스트, 리듬 제어 및 특정 사운드와 같은 다양한 입력 방법을 통해 고품질의 자연스러운 음성을 만들 수 있습니다. 최근 Google은 여러 내부 팀과 팀을 이루어 두 가지 중요한 기능을 시작했습니다. Notebooklm 오디오 개요는 업로드 된 문서를 생생한 대화로 변환 할 수 있습니다.
이러한 혁신은 Google의 몇 가지 이전 연구 결과를 기반으로합니다. SoundStream Neural Audio Codec, Audiolm 오디오 언어 모델링 프레임 워크, Soundstorm, 30 초 이상의 대화를 생성 할 수있는 Soundstorm에 이르기까지 Google은 끊임없이 음성 생성 분야에서 혁신하고 있습니다. 최신 기술 혁신은 출력 품질을 유지하면서 초당 600 비트의 낮은 비트 속도로 오디오를 압축 할 수있는보다 효율적인 음성 코덱을 사용합니다.
이러한 기술 혁신을 달성하기 위해 Google은 정보 계층 구조를 효율적으로 처리 할 수있는 특수 트랜스포머 아키텍처를 개발했습니다. 이 모델은 수십만 시간의 음성 데이터에서 먼저 미리 훈련 된 다음 실제 대화에서 톤 일시 중지와 같은 자연적인 특징을 포함하는 고품질 대화 데이터 세트에서 미세 조정됩니다. Google은 기술을 책임감있게 사용하기 위해 SynthID 기술을 통합하여 AI가 생성 한 오디오 컨텐츠에 워터 마크를 추가했습니다.
앞으로 Google은 모델의 부드러움, 음질을 향상시키고보다 자세한 컨트롤을 추가하기 위해 노력하고 있습니다. Gemini 시리즈 모델과 결합 하여이 기술은 교육 경험과 컨텐츠 접근성을 향상시키는 데 중요한 역할을하여 음성 기술에 더 많은 가능성을 제공 할 것으로 예상됩니다.
이 기술의 중요성은 성능 향상뿐만 아니라 휴먼 컴퓨터 상호 작용을위한 새로운 장을 개설하는 데 있습니다. Google은 복잡한 기술 혁신을 자연스럽고 직관적 인 상호 작용 방식으로 변환함으로써 차세대 디지털 경험을위한 토대를 마련하고 있습니다.
세부 사항 : https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
Google의 음성 생성 기술은 기술적 인 도약 일뿐 만 아니라 인간 컴퓨터 상호 작용의 혁신적인 발전으로 미래의 디지털 세계에 무제한 가능성을 가져옵니다.