AI聊天机器人在社交判断测试中超越人类，或成社交互动顾问

作者：Eve Cole 更新时间：2024-12-18 09:21:14

近期一项发表在《Scientific Reports》上的研究引发关注，该研究表明某些先进的AI聊天机器人，在评估复杂社交情境方面的能力已超越人类。研究人员通过情境判断测试，对多个AI聊天机器人和人类参与者进行了对比，结果显示部分AI在选择最佳行为反应方面表现更佳，这为AI在客户服务、心理健康支持等领域的应用提供了新的可能性。研究并非完美无缺，仍需进一步探索AI在真实社交互动中的表现，以及如何克服其缺乏真实情感的限制。

最近，发表在《Scientific Reports》上的一项研究显示，某些先进的 AI 聊天机器人在评估复杂社交情境方面的表现优于人类。

研究人员利用一种被广泛使用的心理学工具 —— 情境判断测试，发现三个聊天机器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手，在选择最有效的行为反应方面，超过了人类参与者的表现。

AI机器人写论文

图源备注:图片由AI生成，图片授权服务商Midjourney

随着社会交往日益重要，AI 在社交互动中的潜力不断显现，包括在客户服务和心理健康支持等领域的应用。大型语言模型（如本次研究中测试的聊天机器人）能够处理语言、理解上下文并提供有效的回应。尽管之前的研究已证明这些模型在学术推理和语言任务中的能力，但它们在复杂社交动态中的有效性仍未得到充分探索。

研究团队对276名人类参与者进行了测试，这些参与者是高素质的飞行员申请者。研究采用了情境判断测试，展示了12个需要评估的情境，每个情境提供四种潜在的行为选项。研究人员比较了五个 AI 聊天机器人的表现，发现所有测试的聊天机器人在表现上至少与人类持平，甚至有的表现更佳。Claude 的表现最佳，随后是 Microsoft Co pilot 和 you.com 的智能助手。

有趣的是，当聊天机器人没有选择最佳反应时，它们往往选择了第二有效的选项，显示出与人类决策模式的相似之处。这表明 AI 系统虽然不是完美的，但在社交判断和概率推理方面具备一定的能力。

此外，研究还发现不同 AI 系统之间的可靠性差异。Claude 在多次测试中表现出最高的一致性，而 Google Gemini 在不同测试中可能会出现矛盾的评分结果。尽管如此，所有 AI 系统的整体表现超出预期，展示了它们在提供社交能力建议方面的潜力。

研究人员指出，虽然许多人已经在日常任务中使用聊天机器人，但在社交互动的复杂场景中，它们的表现仍需进一步验证。研究显示，大型语言模型在模拟的社交情境中表现出色，但它们并不具备真实的情感，这对真正的社交行为是必需的。

总而言之，这项研究揭示了AI在社交领域应用的巨大潜力，但也提醒我们需谨慎看待AI在真实社交场景中的应用，并需进一步研究AI的情感理解和真实社交能力。

​AI聊天机器人在社交判断测试中超越人类，或成社交互动顾问

AI聊天机器人在社交判断测试中超越人类，或成社交互动顾问