研究：人们与ChatGPT对话五分钟，很难区分是否为人类

作者：Eve Cole 更新时间：2025-01-03 16:32:01

大型语言模型（LLMs）的快速发展引发了人们对其与人类语言能力差异的关注。尤其是在当下流行的聊天平台中，例如ChatGPT，其强大的文本生成能力让人难以分辨其输出是否为人类所写。本文将分析一项关于GPT-4模型能否被误认为是人类的研究，探讨了人类在区分AI生成文本和人类文本方面的能力。

大型语言模型（LLMs）如 GPT-4模型正在广泛应用的聊天平台 ChatGPT 已经展现出了惊人的能力，能够理解书面提示并以多种语言生成合适的回应。这让我们有些人产生了疑问:这些模型生成的文本和答案是否如此逼真，以至于能够被误认为是人类所写?

每种证人类型的通过率（左）和审讯者信心(右)。

最近，加州大学圣迭戈分校的研究人员进行了一项名为图灵测试的研究，旨在评估机器展现出人类智能的程度。他们的研究结果发现，人们在与 GPT-4模型和人类代理进行两人对话时，很难区分两者。

研究论文提前发布在 arXiv 服务器上，其结果显示 GPT-4在大约50% 的互动中能够被误认为是人类。尽管初步实验并未充分控制影响结果的一些变量，但他们决定进行第二项实验，以得出更详实的结果。

这四次对话中有一次是与人类目击者进行的，其余的都是与人工智能进行的

在他们的研究中，人们难以确定 GPT-4是否为人类。与 GPT-3.5和 ELIZA 模型相比，人们往往能够判断出后者是机器，但在判断 GPT-4是人类还是机器上，他们的能力并不比随机猜测更高。

研究团队设计了一个名为 "人还是不是人" 的二人在线游戏，让参与者与另一个人或一个 AI 模型进行互动。每次游戏中，一个人类询问者与一个 “证人” 进行交谈，以试图确定对方是否为人类。

虽然真正的人类其实更成功，有约三分之二的时间说服询问者他们是人类，但研究结果表明，在现实世界中，人们可能无法可靠地判断他们是否在与人类还是 AI 系统交谈。

这项研究强调了先进LLMs的显著能力，也突显了在人机交互日益复杂的情况下，区分人类与人工智能的挑战性。未来需要进一步的研究来探索更有效的区分方法，以及如何应对人工智能技术带来的伦理和社会影响。