OpenAI 终于发布了近七个月前演示的 ChatGPT 实时视频功能

作者：Eve Cole 更新时间：2024-12-20 19:32:02

OpenAI 宣布 ChatGPT 的高级语音模式已实现视觉化，订阅 Plus、Team 或 Pro 的用户可通过手机摄像头与 ChatGPT 进行实时互动，并具备屏幕共享能力。这项功能此前多次推迟，终于在经过长时间的测试后正式推出，但并非所有用户都能立即使用，部分地区和用户类型需要等待至明年1月甚至更久。

OpenAI 在本周四宣布，其为 ChatGPT 开发的类人对话功能"高级语音模式"已实现视觉化。订阅 ChatGPT Plus、Team 或 Pro 的用户现在可以通过手机摄像头对准物体，ChatGPT 将近乎实时地做出响应。

这一带有视觉功能的高级语音模式还具备屏幕共享能力，可以分析设备屏幕上的内容。例如，它能够解释各种设置菜单，并对数学问题提供建议。

使用方法非常简单:在 ChatGPT 聊天栏旁点击语音图标，然后点击左下角的视频图标即可开始视频。如需共享屏幕，则可点击三点菜单并选择"共享屏幕"。

关于功能推广，OpenAI 表示带视觉的高级语音模式将于本周四开始推出，并于下周结束。需要注意的是，并非所有用户都能立即使用。ChatGPT Enterprise 和 Edu 用户需要等到明年1月，而欧盟、瑞士、冰岛、挪威和列支敦士登的用户尚未公布具体时间表。

在最近的 CNN"60分钟"节目中，OpenAI 总裁 Greg Brockman 向 Anderson Cooper 展示了高级语音模式的视觉分析能力。当 Cooper 在黑板上绘制人体部位时，ChatGPT 能够理解并评论其绘画。例如，它指出大脑位置准确，并建议大脑形状更接近椭圆。

然而，在演示过程中，这一高级语音模式在几何问题上也暴露出了一些不准确性，显示出可能产生"幻觉"的潜在风险。

值得一提的是，这个带视觉功能的高级语音模式已经多次推迟。今年4月，OpenAI 曾承诺将在"几周内"推出，但后来又表示需要更多时间。直到今年秋初，该功能才向部分 ChatGPT 用户开放，且当时尚未具备视觉分析功能。

在人工智能竞争日益激烈的背景下，谷歌和 Meta 等竞争对手也在开发类似功能。本周，谷歌已经向部分 Android 测试人员开放了其实时视频分析对话式人工智能项目 Project Astra。

除了视觉功能，OpenAI 还在本周四推出了节日"圣诞老人模式"，用户可以通过 ChatGPT 应用中提示栏旁的雪花图标启用圣诞老人语音。

此次 ChatGPT 高级语音模式的视觉化更新，标志着 AI 与现实世界交互能力的提升，但也暴露了技术发展中存在的挑战和局限性。未来，类似功能的完善和普及值得期待，AI 技术的进步将持续影响我们的生活方式。

​OpenAI 终于发布了近七个月前演示的 ChatGPT 实时视频功能

OpenAI 终于发布了近七个月前演示的 ChatGPT 实时视频功能