近日,媒体曝光英伟达秘密大规模抓取YouTube视频数据用于训练其AI模型,引发了广泛的法律和伦理争议。此举涉及英伟达多款AI产品,包括Cosmos深度学习模型、自动驾驶算法等,其数据获取方式隐蔽,且未经视频创作者及谷歌授权。英伟达内部邮件显示,高层对这一行为持乐观态度,认为已获得“全面批准”,而这一说法与谷歌官方声明相悖,谷歌明确指出此行为违反平台服务条款。事件涉及的巨额数据量、隐蔽的操作手段以及各方截然不同的回应,都使得这一事件备受关注。
最近,科技巨头英伟达在数据获取方面的一项秘密行动被曝光。根据媒体404的报道,英伟达通过抓取海量 YouTube 视频数据来训练他们的人工智能模型,这一行为在法律和伦理上都相当模糊。
报告中指出,英伟达正利用这些视频数据训练其多款 AI 模型,包括 Cosmos 深度学习模型、自动驾驶算法、数字人类 AI 头像产品,以及3D 世界构建工具 Omniverse。
据了解,英伟达采取了许多隐蔽措施来掩盖他们的数据抓取行为,使用了多个 “虚拟机器” 并不断更换 IP 地址,以避免被 YouTube 发现。而且,视频创作者和 YouTube 的母公司谷歌并未对此次数据抓取活动给予任何授权。英伟达内部的沟通显示,他们的策略相当大胆,一位高管在邮件中提到正在构建一个 “视频数据工厂”,每天能够产生相当于人类一生的视觉体验数据。
有意思的是,当员工对这种数据获取的合法性和伦理性表示担忧时,管理层对此却显得相当自信,认为这一切都是高层的决定。邮件中写道:“我们对所有数据都有一个全面的批准。”
更令人感到不安的是,英伟达曾在一段时间内明知自己正在使用一个包含1.3亿个 YouTube 视频的 HD-VG-130M 数据集,而这个数据集本来是为了学术研究而创建的。许多专家对此表示强烈不满,认为将用于研究的数据用于商业化是一种不当行为。
作为 AI 产业的核心参与者,英伟达在市场上占据了显著的地位,其图形处理单元(GPU)是许多计算密集型 AI 系统的基础。与英伟达合作的公司如 OpenAI、微软和谷歌等都对此行为表示关注。谷歌的发言人提到,未经许可使用 YouTube 数据是明显违反平台服务条款的。
英伟达在回应媒体时声称,他们的 AI 训练行为是 “完全符合版权法的精神和字面意思”。然而,使用这些内容的创作者们对这一说法又会有怎样的看法呢?
划重点:
英伟达秘密抓取大量 YouTube 视频数据进行 AI 训练,法律和伦理问题引发关注。
? 内部邮件显示,英伟达高管认为这一行为获得了全面批准,态度相当大胆。
? 谷歌指出,未经许可使用 YouTube 数据明显违反平台服务条款,英伟达的回应引发争议。
英伟达的数据抓取行为引发了关于AI数据获取伦理和法律的广泛讨论,其回应也未能平息争议。这一事件凸显了大型科技公司在数据使用方面面临的挑战,以及对相关法律法规完善的迫切需求。未来,类似事件或将持续引发关注,并促使行业加强自律,规范数据使用行为。