Tumblr 모회사인 Automattic은 AI 모델 훈련을 위해 OpenAI와 Midjourney에 사용자 게시물 데이터를 판매할 계획인데, 이는 사용자 개인 정보 보호 및 데이터 보안에 대한 우려를 불러일으키는 조치입니다. 이는 레딧(Reddit), 셔터스톡(Shutterstock) 등 기업과 AI 기업이 사용자 데이터를 상업적으로 활용하는 이전 협력 사례와 유사하다. Automattic은 사용자에게 데이터 공유를 거부할 수 있는 설정을 제공할 것을 약속하지만, 데이터 수집 범위와 처리 방법, 특히 실수로 수집된 비공개 게시물의 처리와 관련하여 여전히 모호한 점이 많아 추가 설명과 설명이 필요합니다.
Tumblr 모회사인 Automattic은 AI 모델 훈련을 위한 사용자 게시물을 판매하기 위해 OpenAI 및 Midjourney와 협의 중입니다. Automattic은 사용자가 제3자와의 데이터 공유를 거부할 수 있는 설정을 출시할 준비를 하고 있습니다. 그들은 2014년부터 2023년까지 Tumblr의 모든 공개 게시물을 크롤링했습니다. 오류에는 일부 비공개 게시물이 포함되어 있지만 데이터가 어떻게 처리되고 어떤 데이터가 모델 교육에 사용될지는 확실하지 않습니다. 이전에 Reddit은 매년 사용자 데이터를 사용하여 Google의 AI 모델을 교육하는 계약을 Google과 체결했으며, Shutterstock은 OpenAI와 사진 라이브러리를 사용하여 모델을 교육하는 계약을 체결했습니다.이러한 움직임은 대규모 언어 모델 훈련이 엄청난 양의 데이터에 의존한다는 현실을 다시 한 번 강조하고 데이터 개인 정보 보호 및 윤리에 대한 지속적인 우려를 불러일으킵니다. Automattic은 사용자의 신뢰와 플랫폼의 지속 가능한 개발을 유지하기 위해 데이터 처리 프로세스를 투명하게 설명하고 사용자에게 실제 선택권을 보장해야 합니다. 앞으로는 유사한 데이터 공유 관행이 더 엄격한 규제와 더 폭넓은 공개 조사를 받게 될 것입니다.