近期一项发表在《Scientific Reports》上的研究引发关注,该研究表明某些先进的AI聊天机器人,在评估复杂社交情境方面的能力已超越人类。研究人员通过情境判断测试,对多个AI聊天机器人和人类参与者进行了对比,结果显示部分AI在选择最佳行为反应方面表现更佳,这为AI在客户服务、心理健康支持等领域的应用提供了新的可能性。研究并非完美无缺,仍需进一步探索AI在真实社交互动中的表现,以及如何克服其缺乏真实情感的限制。
最近,发表在《Scientific Reports》上的一项研究显示,某些先进的 AI 聊天机器人在评估复杂社交情境方面的表现优于人类。
研究人员利用一种被广泛使用的心理学工具 —— 情境判断测试,发现三个聊天机器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手,在选择最有效的行为反应方面,超过了人类参与者的表现。
图源备注:图片由AI生成,图片授权服务商Midjourney
随着社会交往日益重要,AI 在社交互动中的潜力不断显现,包括在客户服务和心理健康支持等领域的应用。大型语言模型(如本次研究中测试的聊天机器人)能够处理语言、理解上下文并提供有效的回应。尽管之前的研究已证明这些模型在学术推理和语言任务中的能力,但它们在复杂社交动态中的有效性仍未得到充分探索。
研究团队对276名人类参与者进行了测试,这些参与者是高素质的飞行员申请者。研究采用了情境判断测试,展示了12个需要评估的情境,每个情境提供四种潜在的行为选项。研究人员比较了五个 AI 聊天机器人的表现,发现所有测试的聊天机器人在表现上至少与人类持平,甚至有的表现更佳。Claude 的表现最佳,随后是 Microsoft Co pilot 和 you.com 的智能助手。
有趣的是,当聊天机器人没有选择最佳反应时,它们往往选择了第二有效的选项,显示出与人类决策模式的相似之处。这表明 AI 系统虽然不是完美的,但在社交判断和概率推理方面具备一定的能力。
此外,研究还发现不同 AI 系统之间的可靠性差异。Claude 在多次测试中表现出最高的一致性,而 Google Gemini 在不同测试中可能会出现矛盾的评分结果。尽管如此,所有 AI 系统的整体表现超出预期,展示了它们在提供社交能力建议方面的潜力。
研究人员指出,虽然许多人已经在日常任务中使用聊天机器人,但在社交互动的复杂场景中,它们的表现仍需进一步验证。研究显示,大型语言模型在模拟的社交情境中表现出色,但它们并不具备真实的情感,这对真正的社交行为是必需的。
总而言之,这项研究揭示了AI在社交领域应用的巨大潜力,但也提醒我们需谨慎看待AI在真实社交场景中的应用,并需进一步研究AI的情感理解和真实社交能力。