OpenAI는 ChatGPT의 고급 음성 모드가 시각화되었다고 발표했습니다. Plus, Team 또는 Pro를 구독하는 사용자는 휴대폰 카메라를 통해 실시간으로 ChatGPT와 상호 작용할 수 있으며 화면 공유 기능이 있습니다. 이 기능은 이전에 여러 차례 지연되었으며 오랜 기간의 테스트를 거쳐 마침내 공식 출시되었습니다. 그러나 모든 사용자가 즉시 사용할 수 있는 것은 아니며 일부 지역 및 사용자 유형은 내년 1월 또는 그 이상 기다려야 합니다.
OpenAI는 ChatGPT용으로 개발한 인간과 유사한 대화 기능인 '고급 음성 모드'가 시각화되었다고 목요일 발표했습니다. ChatGPT Plus, Team 또는 Pro를 구독하는 사용자는 이제 휴대폰 카메라로 물체를 가리킬 수 있으며 ChatGPT는 거의 실시간으로 응답합니다.
비전 기능이 포함된 이 고급 음성 모드에는 장치 화면의 콘텐츠를 분석하는 화면 공유 기능도 있습니다. 예를 들어, 다양한 설정 메뉴를 설명하고 수학 문제에 대한 조언을 제공할 수 있습니다.
사용 방법은 매우 간단합니다. ChatGPT 채팅 표시줄 옆에 있는 음성 아이콘을 클릭한 후 왼쪽 하단에 있는 동영상 아이콘을 클릭하면 동영상이 시작됩니다. 화면을 공유하려면 점 3개 메뉴를 클릭하고 "화면 공유"를 선택하세요.
기능 출시와 관련하여 OpenAI는 비전을 갖춘 고급 음성 모드가 이번 목요일부터 출시되어 다음 주에 끝날 것이라고 말했습니다. 모든 사용자가 즉시 이 기능을 사용할 수 있는 것은 아니라는 점에 유의하는 것이 중요합니다. ChatGPT Enterprise 및 Edu 사용자는 내년 1월까지 기다려야 하며, EU, 스위스, 아이슬란드, 노르웨이 및 리히텐슈타인 사용자는 아직 구체적인 시간표를 발표하지 않았습니다.
최근 CNN의 "60 Minutes"에 출연한 OpenAI 사장 Greg Brockman은 Anderson Cooper에게 음성 패턴에 대한 고급 시각적 분석 기능을 시연했습니다. Cooper가 칠판에 인체 부위를 그렸을 때 ChatGPT는 그의 그림을 이해하고 의견을 제시할 수 있었습니다. 예를 들어, 뇌가 정확하게 위치한다고 말하고 뇌의 모양이 타원에 더 가깝다는 것을 암시합니다.
그러나 시연 중에 이 고급 음성 모드는 기하학적 문제와 관련하여 일부 부정확성을 드러내며 "환각"의 잠재적 위험을 보여주었습니다.
시각적 기능을 갖춘 이 고급 음성 모드가 여러 번 지연되었다는 점은 언급할 가치가 있습니다. 지난 4월 OpenAI는 "몇 주 내에" 출시할 것이라고 약속했지만 나중에 시간이 더 필요할 것이라고 말했습니다. 이 기능은 올 가을 초까지 일부 ChatGPT 사용자에게 제공되지 않았으며 당시에는 시각적 분석 기능도 아직 제공되지 않았습니다.
인공지능 경쟁이 치열해지는 가운데 구글, 메타 등 경쟁사들도 비슷한 역량을 개발하고 있다. 이번 주 Google은 일부 Android 테스터에게 실시간 비디오 분석 대화형 인공 지능 프로젝트 Project Astra를 공개했습니다.
OpenAI는 시각적 기능 외에도 목요일에 축제적인 "산타 모드"를 출시하여 사용자가 ChatGPT 앱의 알림 표시줄 옆에 있는 눈송이 아이콘을 통해 산타의 음성을 활성화할 수 있습니다.
ChatGPT의 고급 음성 모드에 대한 시각적 업데이트는 현실 세계와 상호 작용하는 AI의 능력이 향상되었음을 의미하지만 기술 개발의 과제와 한계도 드러냅니다. 앞으로도 AI 기술의 발전은 우리 생활에 계속해서 영향을 미칠 것으로 예상된다.