최초의 오픈 소스 대화형 오디오 모델인 Hertz-dev는 120밀리초의 초저 지연 시간으로 전체 네트워크를 놀라게 합니다.

저자：Eve Cole 업데이트 시간：2024-11-29 13:47:15

Downcodes의 편집자가 혁신적인 오픈 소스 오디오 모델인 Hertz-dev를 소개합니다! 85억 개의 매개변수를 갖고 있으며 2천만 시간의 고품질 오디오 데이터로 훈련되어 놀라운 전이중 실시간 대화를 달성합니다. 기존 퍼블릭 모델의 2배에 달하는 120밀리초의 초저지연 시간으로 마치 면대면 소통처럼 부드럽고 자연스러운 대화 경험을 선사한다. Hertz-dev의 핵심 혁신은 획기적인 전이중 기술, 우수한 오디오 압축 기술, 매우 긴 대화 기능 및 혁신적인 낮은 대기 시간에 있습니다. 이는 우리가 AI와 상호 작용하는 방식에 혁명을 일으킬 것입니다.

혁신적인 오픈 소스 오디오 모델인 Hertz-dev가 탄생하여 놀라운 성능 지표로 전 세계 개발자들을 놀라게 했습니다. 85억 개의 매개변수를 가진 이 AI 음성 거대 괴물은 2천만 시간의 고품질 오디오 데이터로 훈련을 통해 인간이 꿈꾸는 전이중 실시간 대화를 성공적으로 구현했습니다.

가장 놀라운 점은 기존 퍼블릭 모델보다 2배나 늘어난 120밀리초의 초저지연 성능으로, 인간과 기계의 대화 경험을 완전히 새로운 차원으로 끌어올린다는 점이다. AI와 대화할 때 더 이상 상대방이 말을 마칠 때까지 기다리지 않고 자연스럽게 중단할 수 있다고 상상해 보세요. 마치 실제 인간 대화가 부드럽고 자연스러운 것처럼 말이죠.

Hertz-dev의 핵심 혁신은 다음과 같습니다.

획기적인 전이중 기술: 기존의 턴 테이킹 모델을 완전히 전복하고 진정한 양방향 실시간 통신 달성

탁월한 오디오 압축: 높은 음질을 보장하면서 대역폭 사용량을 크게 줄입니다.

매우 긴 대화 기능: 연속적인 대화 내용을 쉽게 이해하고 생성합니다.

혁신적인 낮은 대기 시간: 120밀리초의 응답 속도로 실시간 상호 작용의 새로운 시대를 엽니다.

오디오 중심의 Transformer 기본 모델인 Hertz-dev는 훈련 과정에서 실제 대화 데이터를 최대한 활용하고 자연스러운 일시 중지 리듬과 풍부한 감정적 억양 변화를 포함하여 인간 음성의 미묘한 특징을 성공적으로 포착합니다.

개발자에게 이는 매우 귀중한 오픈 소스 보물입니다. 모델을 자유롭게 다운로드하고, 특정 애플리케이션 시나리오에 따라 미세 조정하고, 다양하고 혁신적인 음성 애플리케이션을 만들 수 있습니다. 이는 고객 서비스 로봇부터 음성 비서까지, 교육 및 안내부터 엔터테인먼트 상호 작용까지 모든 것이 질적 도약을 가져올 것임을 의미합니다.

프로젝트 주소: https://github.com/Standard-Intelligence/hertz-dev

Hertz-dev의 오픈 소스는 음성 상호 작용 기술의 발전을 촉진하고 개발자에게 무한한 가능성을 제공할 것입니다. Hertz-dev를 기반으로 한 더욱 혁신적인 애플리케이션의 등장을 기대해 주세요!