OpenAI 宣布ChatGPT 的高級語音模式已視覺化,訂閱Plus、Team 或Pro 的用戶可透過手機相機與ChatGPT 進行即時互動,並具備螢幕分享能力。這項功能先前已多次推遲,終於在經過長時間的測試後正式推出,但並非所有用戶都能立即使用,部分地區和用戶類型需要等待至明年1月甚至更久。
OpenAI 在本週四宣布,其為ChatGPT 開發的類人對話功能"高級語音模式"已實現視覺化。訂閱ChatGPT Plus、Team 或Pro 的用戶現在可以透過手機相機對準物體,ChatGPT 將近乎即時地做出回應。
這款具有視覺功能的高階語音模式還具備螢幕分享能力,可以分析裝置螢幕上的內容。例如,它能夠解釋各種設定選單,並對數學問題提供建議。
使用方法非常簡單:在ChatGPT 聊天欄旁點擊語音圖標,然後點擊左下角的視訊圖標即可開始視訊。如需共享螢幕,則可點擊三點選單並選擇"共享螢幕"。
關於功能推廣,OpenAI 表示帶有視覺的高級語音模式將於本週四開始推出,並在下週結束。需要注意的是,並非所有使用者都能立即使用。 ChatGPT Enterprise 和Edu 用戶需要等到明年1月,而歐盟、瑞士、冰島、挪威和列支敦士登的用戶尚未公佈具體時間表。
在最近的CNN"60分鐘"節目中,OpenAI 總裁Greg Brockman 向Anderson Cooper 展示了高級語音模式的視覺分析能力。當Cooper 在黑板上繪製人體部位時,ChatGPT 能夠理解並評論其繪畫。例如,它指出大腦位置準確,並建議大腦形狀更接近橢圓。
然而,在演示過程中,這種高級語音模式在幾何問題上也暴露出了一些不準確性,顯示出可能產生"幻覺"的潛在風險。
值得一提的是,這個帶有視覺功能的高級語音模式已經多次推遲。今年4月,OpenAI 曾承諾將在"幾週內"推出,但後來又表示需要更多時間。直到今年秋初,該功能才對部分ChatGPT 用戶開放,當時尚未具備視覺分析功能。
在人工智慧競爭日益激烈的背景下,Google和Meta 等競爭對手也在開發類似功能。本週,Google已向部分Android 測試人員開放了其實時視訊分析對話式人工智慧專案Project Astra。
除了視覺功能,OpenAI 還在本週四推出了節日"聖誕老人模式",用戶可以透過ChatGPT 應用程式中提示欄旁的雪花圖示啟用聖誕老人語音。
這次ChatGPT 高階語音模式的視覺化更新,標誌著AI 與現實世界互動能力的提升,但也揭露了技術發展中存在的挑戰與限制。未來,類似功能的完善和普及值得期待,AI 技術的進步將持續影響我們的生活方式。