Meta公司因其最新AI聊天机器人Llama3的训练数据来源引发巨大争议。据披露的文件显示,Meta利用了盗版电子书网站Library Genesis(LibGen)来训练Llama3,此举引发了关于版权和数据所有权的广泛担忧。尽管Meta内部员工曾对使用LibGen的风险表达担忧,包括潜在的法律风险和负面舆论,但CEO扎克伯格仍批准了这一决定,凸显了大型科技公司在AI竞赛中的激进策略和对版权的漠视。
近日,随着 Meta 公司在一场关于版权的集体诉讼中披露的文件浮出水面,该公司利用一个名为 Library Genesis(LibGen)的盗版电子书图书馆来训练其最新的 AI 聊天机器人 Llama3的消息引发了广泛关注。这些文件显示,Meta 的工程师曾讨论过利用 LibGen 这一 “影子图书馆” 的潜在风险,尤其是在版权和数据拥有权问题日益突出的背景下。尽管存在潜在的负面影响和舆论风险,Meta 的首席执行官马克・扎克伯格依然批准了这一决定。
在法庭的要求下,Meta 内部关于使用 LibGen 数据集的机密对话记录被解密,文件显示,Meta 的高管在与 AI 研究团队的讨论中明确表示 LibGen 的数据是 “我们知道是盗版的”,并同意使用该数据来提高 Llama3的性能。一封邮件中,Meta 的产品管理总监 Sony Theakanath 指出,虽然使用 LibGen 的决定引发了舆论风险,但其他 AI 公司也在使用类似的数据,这使得 Meta 的团队感到这条路并非孤例。
更令人担忧的是,Meta 的员工还讨论了如何处理和过滤 LibGen 中的文本,以去除版权标识,如 ISBN 和版权声明。内部备忘录称,LibGen 提供的材料 “质量高且文档较长,非常适合学习特别专业的知识”。这表明 Meta 似乎试图隐蔽其使用未经授权的内容。
此外,Meta 的员工还在邮件中提到,直接使用公司 IP 地址进行种子下载可能不妥,并对这一行为表示担忧。然而,在扎克伯格 “从高层推动” 使用 LibGen 数据集的情况下,Meta 在 AI 竞赛中的求胜心态显露无遗。这一事件也再次引发了外界对大型科技公司在版权问题上的关注与质疑。
这一版权诉讼的结果可能会对其他正在进行的类似案件产生重要影响,尤其是涉及图像、音乐和文学等创作作品的使用问题。随着科技公司对原创内容的需求不断增加,原创内容创作者的权益将成为关注的焦点。
此事件不仅暴露出Meta在版权问题上的不负责任态度,也引发了人们对AI发展中伦理和法律问题的深入思考。未来,如何平衡科技发展与知识产权保护将成为一个重要的课题,需要行业内外的共同努力来寻求解决方案。