대화 오디오 Hertz-Dev 120ms 초대형 대기 시간의 첫 번째 오픈 소스 모델 전체 네트워크-AI 기사

저자：Eve Cole 업데이트 시간：2025-02-12 19:00:03

혁신적인 오픈 소스 오디오 모델 인 Hertz-Dev는 AI Voice 분야에서 85 억 개의 매개 변수와 2 천만 시간의 고품질 오디오 데이터로 큰 파도를 만들었습니다. 그것은 전이중 실시간 대화를 깨닫고 120 밀리 초의 초저 지연 시간은 획기적인 것으로, 전례없는 수준의 매끄러움과 자연으로 인간 컴퓨터 상호 작용을 향상시켜 이전 음성 모델의 대화식 경험을 완전히 변화시킵니다. 핵심 혁신적인 획기적인 획기적인 획기적인 전이중 기술, 우수한 오디오 압축, 초대형 대화 기능 및 혁신적인 낮은 대기 시간에있어 개발자에게 무제한 가능성을 제공합니다.

혁신적인 오픈 소스 오디오 모델 인 Hertz-Dev는 놀라운 성능 지표로 전 세계의 개발자들에게 충격을 주었고 충격을 받았습니다. 85 억 개의 매개 변수를 가진이 AI Voice Monster는 인간이 2 천만 시간의 고품질 오디오 데이터 교육을 통해 꿈꾸는 전이중 실시간 대화를 성공적으로 달성했습니다.

가장 놀라운 점은 120 밀리 초의 초 저쪽 대기 시간 성능으로 기존의 공개 모델을 두 배로 늘려 컴퓨터 대화 경험이 완전히 새로운 수준으로 이어집니다. AI와 대화 할 때 상대방이 말하기를 끝내기를 기다릴 필요가 없으며 실제 인간 대화처럼 자연스럽게 방해 할 수 있다고 상상해보십시오.

Hertz-Dev의 핵심 혁신에는 다음이 포함됩니다.

획기적인 전이중 기술 : 전통적인 회전 음성 모델을 완전히 전복하고 진정한 양방향 실시간 커뮤니케이션을 실현합니다.

우수한 오디오 압축 : 높은 음질을 보장하면서 대역폭 사용을 크게 줄입니다.

긴 대화 능력 : 지속적인 대화 내용을 쉽게 이해하고 생성합니다.

혁신적인 낮은 대기 시간 : 120 밀리 초의 응답 속도, 실시간 상호 작용의 새로운 시대를 만듭니다.

Hertz-Dev는 오디오에 중점을 둔 기본 변압기 모델로서 훈련 중 실제 대화 데이터를 최대한 활용하고 자연스러운 일시 정지 리듬 및 풍부한 감정적 톤 변화를 포함하여 인간의 미묘한 기능을 성공적으로 캡처합니다.

개발자에게는 이것이 귀중한 오픈 소스 보물입니다. 그들은 모델을 자유롭게 다운로드하고 특정 응용 프로그램 시나리오에 따라 미세 조정하고 다양한 혁신적인 음성 응용 프로그램을 만들 수 있습니다. 이는 고객 서비스 로봇에서 음성 보조원, 교육지도에서 엔터테인먼트 상호 작용에 이르기까지 질적 도약을 안내 할 것임을 의미합니다.

프로젝트 주소 : https://github.com/standard-intelligence/hertz-dev

Hertz-Dev의 오픈 소스 기능은 개발 잠재력을 크게 제공하며 향후 더 많은 분야에 적용되어 개발자와 사용자에게보다 편리하고 똑똑한 음성 상호 작용 경험을 제공합니다. 우리는 미래에 Hertz-Dev의 지속적인 개발을 기대하고 AI Voice 분야에 더 많은 혁신을 가져 오기를 기대합니다.