近期一項發表在《Scientific Reports》上的研究引發關注,該研究表明某些先進的AI聊天機器人,在評估複雜社交情境方面的能力已超越人類。研究人員透過情境判斷測試,對多個AI聊天機器人和人類參與者進行了對比,結果顯示部分AI在選擇最佳行為反應方面表現更佳,這為AI在客戶服務、心理健康支持等領域的應用提供了新的可能性。研究並非完美無缺,仍需進一步探索AI在真實社交互動中的表現,以及如何克服其缺乏真實情感的限制。
最近,發表在《Scientific Reports》上的一項研究顯示,某些先進的AI 聊天機器人在評估複雜社交情境方面的表現優於人類。
研究人員利用一種廣泛使用的心理學工具—— 情境判斷測試,發現三個聊天機器人——Claude、Microsoft Co pilot 和you.com 的智能助手,在選擇最有效的行為反應方面,超過了人類參與者的表現。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
隨著社會互動日益重要,AI 在社交互動中的潛力不斷顯現,包括在客戶服務和心理健康支持等領域的應用。大型語言模型(如本次研究中測試的聊天機器人)能夠處理語言、理解上下文並提供有效的回應。儘管先前的研究已證明這些模型在學術推理和語言任務中的能力,但它們在複雜社交動態中的有效性仍未得到充分探索。
研究團隊對276名人類參與者進行了測試,這些參與者是高素質的飛行員申請者。研究採用了情境判斷測試,展示了12個需要評估的情境,每個情境提供四種潛在的行為選項。研究人員比較了五個AI 聊天機器人的表現,發現所有測試的聊天機器人在表現上至少與人類持平,甚至有的表現更佳。 Claude 的表現最佳,接著是Microsoft Co pilot 和you.com 的智慧助理。
有趣的是,當聊天機器人沒有選擇最佳反應時,它們往往選擇了第二有效的選項,顯示出與人類決策模式的相似之處。這顯示AI 系統雖然不是完美的,但在社交判斷和機率推理方面具備一定的能力。
此外,研究也發現不同AI 系統之間的可靠性差異。 Claude 在多次測試中表現出最高的一致性,而Google Gemini 在不同測試中可能會出現矛盾的評分結果。儘管如此,所有AI 系統的整體表現都超乎預期,並展示了它們在提供社交能力建議方面的潛力。
研究人員指出,雖然許多人已經在日常任務中使用聊天機器人,但在社交互動的複雜場景中,它們的表現仍需進一步驗證。研究顯示,大型語言模式在模擬的社交情境中表現出色,但它們並不具備真實的情感,這對真正的社交行為是必要的。
總而言之,這項研究揭示了AI在社交領域應用的巨大潛力,但也提醒我們需謹慎看待AI在真實社交場景中的應用,並需進一步研究AI的情感理解和真實社交能力。