AI聊天機器人在社交判斷測驗中超越人類，或成社交互動顧問

作者：Eve Cole 更新時間：2024-12-18 09:21:14

近期一項發表在《Scientific Reports》上的研究引發關注，該研究表明某些先進的AI聊天機器人，在評估複雜社交情境方面的能力已超越人類。研究人員透過情境判斷測試，對多個AI聊天機器人和人類參與者進行了對比，結果顯示部分AI在選擇最佳行為反應方面表現更佳，這為AI在客戶服務、心理健康支持等領域的應用提供了新的可能性。研究並非完美無缺，仍需進一步探索AI在真實社交互動中的表現，以及如何克服其缺乏真實情感的限制。

最近，發表在《Scientific Reports》上的一項研究顯示，某些先進的AI 聊天機器人在評估複雜社交情境方面的表現優於人類。

研究人員利用一種廣泛使用的心理學工具—— 情境判斷測試，發現三個聊天機器人——Claude、Microsoft Co pilot 和you.com 的智能助手，在選擇最有效的行為反應方面，超過了人類參與者的表現。

AI机器人写论文

圖源備註:圖片由AI生成，圖片授權服務商Midjourney

隨著社會互動日益重要，AI 在社交互動中的潛力不斷顯現，包括在客戶服務和心理健康支持等領域的應用。大型語言模型（如本次研究中測試的聊天機器人）能夠處理語言、理解上下文並提供有效的回應。儘管先前的研究已證明這些模型在學術推理和語言任務中的能力，但它們在複雜社交動態中的有效性仍未得到充分探索。

研究團隊對276名人類參與者進行了測試，這些參與者是高素質的飛行員申請者。研究採用了情境判斷測試，展示了12個需要評估的情境，每個情境提供四種潛在的行為選項。研究人員比較了五個AI 聊天機器人的表現，發現所有測試的聊天機器人在表現上至少與人類持平，甚至有的表現更佳。 Claude 的表現最佳，接著是Microsoft Co pilot 和you.com 的智慧助理。

有趣的是，當聊天機器人沒有選擇最佳反應時，它們往往選擇了第二有效的選項，顯示出與人類決策模式的相似之處。這顯示AI 系統雖然不是完美的，但在社交判斷和機率推理方面具備一定的能力。

此外，研究也發現不同AI 系統之間的可靠性差異。 Claude 在多次測試中表現出最高的一致性，而Google Gemini 在不同測試中可能會出現矛盾的評分結果。儘管如此，所有AI 系統的整體表現都超乎預期，並展示了它們在提供社交能力建議方面的潛力。

研究人員指出，雖然許多人已經在日常任務中使用聊天機器人，但在社交互動的複雜場景中，它們的表現仍需進一步驗證。研究顯示，大型語言模式在模擬的社交情境中表現出色，但它們並不具備真實的情感，這對真正的社交行為是必要的。

總而言之，這項研究揭示了AI在社交領域應用的巨大潛力，但也提醒我們需謹慎看待AI在真實社交場景中的應用，並需進一步研究AI的情感理解和真實社交能力。