確認！ ChatGPT高級語音模式將於下週對ChatGPT Plus訂閱用戶開放

作者：Eve Cole 更新時間：2024-12-18 09:17:38

OpenAI即将为ChatGPT Plus订阅用户推出备受期待的语音模式Alpha版，该功能基于其旗舰模型GPT-4o，显著提升了语音交互体验。GPT-4o模型能够以接近人类反应速度处理音频输入，并结合了文本、视觉和音频三种模态的端到端训练，展现了OpenAI在多模态AI领域的最新突破。此前，由于需要改进模型内容审核和基础设施建设，该功能的推出有所延迟。此次更新不仅将解决现有ChatGPT语音模式延迟过高的问题，还将为用户带来更流畅、更自然的语音对话体验。

OpenAI 的旗舰模型 GPT-4o（o 代表 omni）在五月份发布时，其音频理解能力备受瞩目。GPT-4o 模型能够以平均320毫秒的速度回应音频输入，这与人类在典型对话中的反应时间相似。

OpenAI 还宣布，ChatGPT 的语音模式功能将利用 GPT-4o 模型的音频能力，为用户提供无缝的语音对话体验。关于 GPT-4o 的语音能力，OpenAI 团队写道:

通过 GPT-4o，我们训练了一个全新的模型，将文本、视觉和音频三种模态进行端到端的训练，也就是说，所有的输入和都由同一个神经网络处理。由于 GPT-4o 我们首个结合所有这些模态的模型，我们仍然只是初步探索了模型的潜力和限制。

在六月份，OpenAI 宣布，计划将先进的语模式在晚些时候向一小部分 ChatGPT Plus 用户进行 Alpha 版推出，但由于需要改进模型检测和拒绝某些内容的能力，该计划被推迟了一个月。此外，OpenAI 还在准备其基础设施，以便在保持实时响应的同时扩展到数百万用户。

现在，OpenAI 的 CEO Sam Altman 通过 X 证实，语音模式的 Alpha 版将于下周开始向 ChatGPT Plus 订阅者推出。

目前的 ChatGPT 语音模式由于平均延迟为2.8秒（GPT3.5）和5.4秒(GPT-4)，使用起来并不直观。基于 GPT-4o 的即将推出的先进语音模式将允许 ChatGPT 订阅者进行无延迟的流畅对话。

另外，OpenAI 今天还发布了备受期待的 SearchGPT，这是他们对网络搜索体验的新尝试。目前 SearchGPT 还是一个原型，它提供了人工智能搜索功能，可以从清晰和相关的来源中快速提供准确的答案。你可以在这里了解更多。

总而言之，OpenAI 的一系列更新显示了其在人工智能领域持续创新的能力，特别是GPT-4o模型的应用将显著改善用户体验，而SearchGPT的发布则预示着未来搜索引擎发展的新方向。我们期待未来OpenAI带来更多令人惊喜的技术革新。