OpenAI는 최근 실시간 API에 대한 중요한 업데이트를 발표하여 5 가지 새로운 음성 옵션을 시작하고 캐싱 비용을 줄이며 개발자에게보다 저렴한 음성 투표 애플리케이션 솔루션을 제공하는 것을 목표로합니다.
오늘 OpenAi는 여전히 베타 버전에있는 실시간 API에 대한 업데이트를 발표했습니다. 이 업데이트의 하이라이트는 Voice-to-Voice 애플리케이션을 위해 설계된 5 가지 새로운 음성 옵션을 시작하는 동시에 관련 캐시 요금을 줄여 개발자를 사용할 때 개발자를보다 저렴하게 만듭니다.
발표 된 5 개의 새로운 목소리 중 Openai는 X, Ash, Verse 및 영국의 발라드에 관한 기사 에서이 새로운 사운드 중 3 개를 보여주었습니다. 이러한 사운드는 더 생생하고 조절 가능뿐만 아니라보다 자연스러운 커뮤니케이션 경험을 제공합니다. OpenAI는 API 문서 에서이 기본 음성 대음 기능이 중간 텍스트 형식 형식 처리를 제거하여 낮은 대기 시간과보다 섬세한 출력을 가능하게한다고 언급했습니다.
그러나 OpenAI는 또한 실시간 API가 여전히 테스트 단계에 있기 때문에 일시적으로 클라이언트 인증을 제공 할 수 없음을 사용자에게 상기시킵니다. 또한 실시간 오디오 처리는 네트워크 조건의 영향을받을 수 있으며, 이는 대규모 오디오 전송에도 어려움이 있습니다. Openai는 신뢰할 수있는 오디오 전송을 보장하는 것이 실제로 네트워크 조건이 불안정 할 때 어려운 작업이라고 지적합니다.
Openai의 음성 기술 개발 역사도 논란의 여지가 있습니다. 3 월에는 음성 클로닝 플랫폼 인 음성 엔진을 출시하여 Elevenlabs와 경쟁하려고 시도했지만 소수의 연구원에게는 개방적이었습니다. 할리우드 여배우 스칼렛 존슨 (Scarlett Johnson)은 GPT-4O와 음성 모드의 시연으로 5 월에 "스카이"라는 음성 사용을 일시 중지했다.
9 월에 OpenAi는 유료 가입자를 위해 ChatGpt Advanced 음성 모드를 출시했습니다.이 가입자는 Chatgpt Plus, Enterprise, Teams 및 EDU와 같은 사용자가 사용할 수 있습니다. 이 음성 투자 기술을 통해 기업은 실시간 대응을보다 빠르게 생성하여 고객 서비스의 효율성을 크게 향상시킬 수 있습니다.
비용 절감 비용은 50% 이상실시간 API의 가격과 관련하여 OpenAI는 이전 릴리스에서 오디오 입력 분만에 0.06 달러, 오디오 출력에서 0.24 달러로 0.06 달러로 가격이 책정되었습니다. 그러나이 업데이트 후 캐시 된 텍스트 입력 사용 비용은 50%감소한 반면 캐시 오디오 입력 비용은 최대 80%입니다.
OpenAI는 개발자의 날에 "프롬프트 캐싱"의 새로운 기능을 발표했으며, 이는 모델 메모리에서 빈번한 요청의 컨텍스트 프롬프트를 저장하여 응답을 생성하는 데 필요한 토큰의 수를 줄일 수 있습니다. 입력 가격을 낮추어 Openai는 더 많은 개발자가 API를 사용하도록 유치하기를 희망합니다.
또한 Anthropic과 같은 다른 회사들은 음성 기술의 매력을 높이기 위해 유사한 캐싱 기능을 출시했습니다.
핵심 사항 :
음성 애플리케이션 경험을 향상시키기 위해 5 개의 새로운 자연 목소리가 추가됩니다.
실시간 API는 캐시를 통해 입력 비용을 줄여 개발자가 더 비용 효율적으로
실시간 오디오 처리는 네트워크 조건에 의해 영향을받으며 신뢰성을 위해주의를 기울여야합니다.
OpenAI의 업데이트는 음성 기술의 애플리케이션 경험을 향상시킬뿐만 아니라 비용을 줄임으로써 더 많은 개발자를 유치하여 음성 기술의 대중화 및 개발을 더욱 촉진합니다.