GPT-3.5模型输出高达六成涉嫌抄袭

作者：Eve Cole 更新时间：2025-02-04 00:16:01

近日，抄袭检测公司Copyleaks发布报告，指出OpenAI的GPT-3.5模型生成内容中高达60%存在不同形式的抄袭。该报告引发了人们对AI模型版权和原创性问题的广泛关注。Copyleaks采用自主研发的评分方法，综合考量文本相似度、微小改动和释义等因素进行判断。报告显示，计算机科学、物理学、心理学等学科的相似度较高，而戏剧、人文学科、英语等学科则较低。OpenAI回应称已采取措施限制模型无意记忆，并明确禁止用户故意进行内容反编。

抄袭检测公司Copyleaks最近发布报告指出,OpenAI推出的GPT-3.5大语言模型生成内容中,高达60%含有不同形式的抄袭。Copyleaks使用自主开发的评分方法,考量文本相似度、微小改动、释义等多方面因素将相似内容判定为“抄袭”。计算机科学、物理学、心理学等学科的相似度最高,而戏剧、人文学科、英语的相似度较低。OpenAI表示已经采取各种措施限制无意记忆,使用条款也明确禁止用户故意让模型反编内容。此外,除了纽约时报提起的知名诉讼案,一些内容创作者也试图主张AI模型就是在他们的作品上得到训练的,所以产出近似副本内容也应该给予分成。

该报告不仅凸显了AI模型在内容生成方面的挑战，也引发了关于AI模型训练数据版权、内容原创性以及知识产权归属等一系列法律和伦理问题的讨论，需要业界共同探索解决方案，以促进AI技术的健康发展。