OpenAI 宣布 ChatGPT 的高级语音模式已实现视觉化,订阅 Plus、Team 或 Pro 的用户可通过手机摄像头与 ChatGPT 进行实时互动,并具备屏幕共享能力。这项功能此前多次推迟,终于在经过长时间的测试后正式推出,但并非所有用户都能立即使用,部分地区和用户类型需要等待至明年1月甚至更久。
OpenAI 在本周四宣布,其为 ChatGPT 开发的类人对话功能"高级语音模式"已实现视觉化。订阅 ChatGPT Plus、Team 或 Pro 的用户现在可以通过手机摄像头对准物体,ChatGPT 将近乎实时地做出响应。
这一带有视觉功能的高级语音模式还具备屏幕共享能力,可以分析设备屏幕上的内容。例如,它能够解释各种设置菜单,并对数学问题提供建议。
使用方法非常简单:在 ChatGPT 聊天栏旁点击语音图标,然后点击左下角的视频图标即可开始视频。如需共享屏幕,则可点击三点菜单并选择"共享屏幕"。
关于功能推广,OpenAI 表示带视觉的高级语音模式将于本周四开始推出,并于下周结束。需要注意的是,并非所有用户都能立即使用。ChatGPT Enterprise 和 Edu 用户需要等到明年1月,而欧盟、瑞士、冰岛、挪威和列支敦士登的用户尚未公布具体时间表。
在最近的 CNN"60分钟"节目中,OpenAI 总裁 Greg Brockman 向 Anderson Cooper 展示了高级语音模式的视觉分析能力。当 Cooper 在黑板上绘制人体部位时,ChatGPT 能够理解并评论其绘画。例如,它指出大脑位置准确,并建议大脑形状更接近椭圆。
然而,在演示过程中,这一高级语音模式在几何问题上也暴露出了一些不准确性,显示出可能产生"幻觉"的潜在风险。
值得一提的是,这个带视觉功能的高级语音模式已经多次推迟。今年4月,OpenAI 曾承诺将在"几周内"推出,但后来又表示需要更多时间。直到今年秋初,该功能才向部分 ChatGPT 用户开放,且当时尚未具备视觉分析功能。
在人工智能竞争日益激烈的背景下,谷歌和 Meta 等竞争对手也在开发类似功能。本周,谷歌已经向部分 Android 测试人员开放了其实时视频分析对话式人工智能项目 Project Astra。
除了视觉功能,OpenAI 还在本周四推出了节日"圣诞老人模式",用户可以通过 ChatGPT 应用中提示栏旁的雪花图标启用圣诞老人语音。
此次 ChatGPT 高级语音模式的视觉化更新,标志着 AI 与现实世界交互能力的提升,但也暴露了技术发展中存在的挑战和局限性。未来,类似功能的完善和普及值得期待,AI 技术的进步将持续影响我们的生活方式。