OpenAI는 ChatGPT Plus 가입자를 위해 매우 기대되는 음성 모드의 알파 버전을 출시할 예정입니다. 이 기능은 주력 모델인 GPT-4o를 기반으로 하며 음성 상호 작용 경험을 크게 향상시킵니다. GPT-4o 모델은 인간의 반응에 가까운 속도로 오디오 입력을 처리할 수 있으며 텍스트, 비전, 오디오의 세 가지 양식의 엔드투엔드 교육을 결합하여 다중 모드 AI 분야에서 OpenAI의 최신 혁신을 보여줍니다. 이전에는 모델 콘텐츠 조정 및 인프라 구축 개선의 필요성으로 인해 이 기능의 출시가 지연되었습니다. 이번 업데이트는 기존 ChatGPT 음성 모드의 과도한 지연 문제를 해결할 뿐만 아니라 사용자에게 더욱 부드럽고 자연스러운 음성 대화 경험을 제공할 것입니다.
지난 5월 OpenAI의 플래그십 모델 GPT-4o(o는 omni의 약자)가 출시되었을 때 오디오 이해 기능이 많은 관심을 끌었습니다. GPT-4o 모델은 평균 320밀리초 안에 오디오 입력에 반응할 수 있었는데, 이는 일반적인 대화에서 인간의 반응 시간과 비슷하다.
OpenAI는 또한 ChatGPT의 음성 모드 기능이 GPT-4o 모델의 오디오 기능을 활용하여 사용자에게 원활한 음성 대화 경험을 제공할 것이라고 발표했습니다. GPT-4o의 음성 기능과 관련하여 OpenAI 팀은 다음과 같이 썼습니다.
GPT-4o를 사용하여 우리는 텍스트, 비전, 오디오의 세 가지 양식을 엔드 투 엔드로 훈련하는 새로운 모델을 훈련했습니다. 즉, 모든 입력과 합계가 동일한 신경망에 의해 처리됩니다. GPT-4o는 이러한 모든 양식을 결합한 최초의 모델이기 때문에 우리는 여전히 모델의 잠재력과 한계를 겉모습에 불과합니다.
지난 6월 OpenAI는 나중에 소규모 ChatGPT Plus 사용자 그룹을 대상으로 알파 버전의 고급 언어 모드를 출시할 계획이라고 발표했지만, 특정 콘텐츠를 감지하고 거부하는 모델의 기능을 개선해야 하기 때문에 계획이 한 달 지연되었습니다. . 또한 OpenAI는 실시간 응답성을 유지하면서 수백만 명의 사용자로 확장할 수 있는 인프라를 준비하고 있습니다.
이제 OpenAI CEO인 Sam Altman은 X를 통해 음성 모드의 알파 버전이 다음 주부터 ChatGPT Plus 가입자에게 출시될 것이라고 확인했습니다.
현재 ChatGPT 음성 모드는 평균 지연 시간이 2.8초(GPT3.5), 5.4초(GPT-4)로 직관적이지 않습니다. 곧 출시될 GPT-4o 기반의 고급 음성 모드를 통해 ChatGPT 가입자는 지연 없이 원활한 대화를 할 수 있습니다.
또한 OpenAI는 오늘 웹 검색 경험에 대한 새로운 시도인 SearchGPT도 출시했습니다. 현재 프로토타입인 SearchGPT는 명확하고 관련 있는 소스로부터 정확한 답변을 신속하게 제공할 수 있는 인공 지능 검색 기능을 제공합니다. 여기에서 자세한 내용을 알아볼 수 있습니다.
전체적으로 OpenAI의 일련의 업데이트는 인공 지능 분야에서 지속적인 혁신을 이룰 수 있는 능력을 보여줍니다. 특히 GPT-4o 모델의 적용은 사용자 경험을 크게 향상시킬 것이며 SearchGPT의 출시는 인공 지능 분야의 새로운 방향을 예고합니다. 미래의 검색 엔진 개발. 앞으로 OpenAI가 가져올 더욱 놀라운 기술 혁신을 기대합니다.