大型语言模型(LLMs)的快速发展引发了人们对其与人类语言能力差异的关注。尤其是在当下流行的聊天平台中,例如ChatGPT,其强大的文本生成能力让人难以分辨其输出是否为人类所写。本文将分析一项关于GPT-4模型能否被误认为是人类的研究,探讨了人类在区分AI生成文本和人类文本方面的能力。
大型语言模型(LLMs)如 GPT-4模型正在广泛应用的聊天平台 ChatGPT 已经展现出了惊人的能力,能够理解书面提示并以多种语言生成合适的回应。这让我们有些人产生了疑问:这些模型生成的文本和答案是否如此逼真,以至于能够被误认为是人类所写?
每种证人类型的通过率(左)和审讯者信心(右)。
最近,加州大学圣迭戈分校的研究人员进行了一项名为图灵测试的研究,旨在评估机器展现出人类智能的程度。他们的研究结果发现,人们在与 GPT-4模型和人类代理进行两人对话时,很难区分两者。
研究论文提前发布在 arXiv 服务器上,其结果显示 GPT-4在大约50% 的互动中能够被误认为是人类。尽管初步实验并未充分控制影响结果的一些变量,但他们决定进行第二项实验,以得出更详实的结果。
这四次对话中有一次是与人类目击者进行的,其余的都是与人工智能进行的
在他们的研究中,人们难以确定 GPT-4是否为人类。与 GPT-3.5和 ELIZA 模型相比,人们往往能够判断出后者是机器,但在判断 GPT-4是人类还是机器上,他们的能力并不比随机猜测更高。
研究团队设计了一个名为 "人还是不是人" 的二人在线游戏,让参与者与另一个人或一个 AI 模型进行互动。每次游戏中,一个人类询问者与一个 “证人” 进行交谈,以试图确定对方是否为人类。
虽然真正的人类其实更成功,有约三分之二的时间说服询问者他们是人类,但研究结果表明,在现实世界中,人们可能无法可靠地判断他们是否在与人类还是 AI 系统交谈。
这项研究强调了先进LLMs的显著能力,也突显了在人机交互日益复杂的情况下,区分人类与人工智能的挑战性。未来需要进一步的研究来探索更有效的区分方法,以及如何应对人工智能技术带来的伦理和社会影响。