ChatGPT 通常会生成可能需要字典才能理解的单词,或者它会生成听起来很神奇的单词。这不仅适用于 ChatGPT,其他开源语言模型(例如 Mistral)也是如此。寻求人工智能的帮助来创作内容并没有什么坏处,只要它是合乎道德的,但在一场针对 14 至 16 岁青少年的科普写作比赛中,一名评委在看到一篇文章中的“迷宫”一词时产生了怀疑,这对于青少年写作来说似乎太高级了。于是,他用AI工具来检查。不幸的是,所有四种工具都给出了相同的结果,几乎整篇文章(大约 90-96%)似乎是由人工智能而不是人类撰写的。然而,我们并不是所有人都是专业人士,如果我们看到上面这句话,我们可能因为认识有限而跳过了它。
需要批判性思维能力来确定人工智能是否是作者
发现 AI 生成文本的最简单方法是检查您不常用但在 ChatGPT 中常见的单词。考虑一个包含来自博客、文章、新闻等的超过 190 亿个英语单词的庞大语料库,从 2010 年至今每天更新。我使用字符串搜索算法查找“delve”这个词,它出现了52,388 次。我绘制了它的年度模式并发现了一种不寻常的行为,从 2022 年(即 ChatGPT 于 11 月 30 日发布的同一年)开始,它在互联网上的出现次数增长了约 200% 。
其他词,如**“错综复杂”**或“坚定不移” ,也表现出类似的增长,就像“钻研”一样。最近它们被更频繁地使用。
这种词汇选择不一定是人工智能专用的,因为人类也使用各种各样的词汇。尽管在学术写作中,我们经常使用“探索”或“更详细地讨论”等短语,而不是“深入研究” 。我要求 ChatGPT 重新措辞“更详细地讨论……” ,****它提供的最初五个建议通常包括这句话。
此外,我尝试分析 arXiv 数据库,这是一个著名的论文发表平台,截至 2023 年,其中包含超过 200 万篇论文。我尝试检测论文摘要中的**“delve”**一词,并绘制其年度模式。我很惊讶地发现这个词在2023年的论文摘要中被广泛使用,与 ChatGPT 在其前 5 个建议中建议的词相同。
这表明学术作家可能正在使用 ChatGPT 来改写或生成内容。 “delve”一词的出现暗示或怀疑学生或在线博客提交的文档(无论是该段落还是该文本部分)已使用 ChatGPT 进行了改写或增强。
凭借我的研究专业知识和两年与法学硕士合作的经验,我整理了一份相当全面的列表,其中包含您可以在一段文本中留意的 100 个单词,以帮助您弄清楚它是否是使用以下内容生成或解释的:人工智能。
但检查如此多的单词并不是一件容易的事,因此为了快速实现这一目标,我制作了一个网络应用程序来快速检查您的文本。只需上传您的文件或粘贴您的文本,它就会完成剩下的工作。简单易行!