Tumblr母公司Automattic正计划将用户帖子数据出售给OpenAI和Midjourney用于AI模型训练,此举引发了对用户隐私和数据安全的担忧。 这与Reddit和Shutterstock等公司此前与AI公司合作的案例类似,都涉及到用户数据的商业利用。Automattic承诺将提供用户选择退出数据共享的设置,但目前数据收集范围及处理方式仍存在诸多不明确之处,特别是关于意外收集的非公开帖子的处理问题,需要进一步的说明和解释。
Tumblr母公司Automattic与OpenAI和Midjourney进行谈判,计划出售用户帖子用于训练AI模型。Automattic准备发布一个设置,允许用户选择退出与第三方的数据共享。他们已经抓取了Tumblr上2014-2023年发布的所有公开帖子,尽管有错误包括部分非公开帖子,但尚不清楚如何处理这些数据及哪些数据会被用于训练模型。此前,Reddit与Google签订了协议,每年使用用户数据培训Google的AI模型;而Shutterstock则与OpenAI签署了协议,用其照片库训练模型。此举再次凸显了大型语言模型训练对海量数据依赖的现实,也引发了人们对数据隐私和伦理的持续关注。Automattic需要透明地解释其数据处理流程,并确保用户拥有真正的选择权,以维护用户信任和平台的可持续发展。 未来,类似的数据共享行为将面临更严格的监管和更广泛的公众审查。