최근 뉴욕타임스와 데일리뉴스는 오픈AI가 자신의 저작물을 AI 모델 훈련에 무단으로 사용했다며 저작권 소송을 제기했다. 이번 사건은 OpenAI 엔지니어들이 사건에 결정적일 수 있는 증거를 실수로 삭제했다는 사실에 초점을 맞춰 많은 우려를 불러일으켰습니다. 이러한 움직임은 사건의 재판 과정에 영향을 미쳤을 뿐만 아니라 대규모 언어 모델을 훈련하는 동안 데이터 처리의 잠재적인 위험과 윤리적 문제도 노출했습니다. 이 글에서는 이번 사건의 내용을 자세히 분석하고, 그것이 인공지능 산업 발전에 끼친 영향을 살펴보겠습니다.
최근 New York Times와 Daily News는 OpenAI가 승인 없이 인공지능 모델을 훈련시키기 위해 자신의 작업을 사용했다고 비난하며 공동으로 OpenAI를 고소했습니다.
이번 사건 전개에 대해 원고측 법무팀은 최근 법원 문서에서 OpenAI 엔지니어들이 관련 데이터를 처리하면서 사건에 중요한 영향을 미칠 수 있는 증거를 실수로 삭제했다는 점을 지적해 대중의 관심을 끌었다.
OpenAI는 원고 측 법무팀이 훈련 데이터에서 저작권이 있는 콘텐츠를 검색할 수 있도록 올 가을 두 대의 가상 머신을 제공하기로 합의한 것으로 알려졌습니다. 가상 머신은 컴퓨터 운영 체제 내에서 실행되는 가상 컴퓨터이며 일반적으로 테스트, 데이터 백업 및 애플리케이션 실행에 사용됩니다. New York Times와 Daily News의 법률 고문과 고용된 전문가들은 11월 1일부터 150시간 이상 OpenAI의 훈련 데이터를 작업해 왔습니다.
그러나 11월 14일 OpenAI 엔지니어가 가상 머신 중 하나에 저장된 검색 데이터를 실수로 삭제했습니다. 원고측 변호인의 편지에 따르면 OpenAI가 손실된 데이터 복구를 시도하여 대부분의 경우 성공했지만 복구된 데이터는 폴더 구조와 파일명이 일치하지 않아 원고의 기사가 어떤 뉴스인지 판단하는 데 사용할 수 없었습니다. "복구할 수 없습니다." OpenAI 모델을 훈련하는 데 사용되는 방법입니다.
원고의 법률 고문은 제거가 의도적이라고 믿지는 않지만 이번 사건은 OpenAI가 "잠재적으로 침해하는 콘텐츠에 대해 자체 데이터 세트를 검색할 수 있는 가장 좋은 위치에 있다"는 것을 보여주었다고 말했습니다. 이는 OpenAI가 자체 도구를 사용하여 관련 침해 콘텐츠를 보다 효율적으로 찾아야 함을 의미합니다.
OpenAI는 이 사례와 이와 유사한 다른 사례에서 모델 훈련을 위해 공개적으로 사용 가능한 데이터를 사용하는 것이 공정한 사용이라고 주장했습니다. 이는 OpenAI가 이러한 모델을 통해 돈을 벌더라도 이러한 예제 사용에 대해 로열티를 지불할 필요가 없다고 믿는다는 의미입니다.
OpenAI가 Associated Press, Business Insider, Financial Times 등 점점 더 많은 뉴미디어와 라이선스 계약을 체결했다는 점을 언급할 가치가 있지만 OpenAI는 이러한 계약의 구체적인 조건을 공개하지 않았습니다. 콘텐츠 파트너인 Dotdash는 연간 보상으로 최소 1,600만 달러를 받는 것으로 알려졌습니다.
법적 분쟁에도 불구하고 OpenAI는 AI 훈련을 위해 특정 저작물을 허가 없이 사용하는 것을 확인하거나 거부하지 않았습니다.
가장 밝은 부분:
OpenAI는 저작권 소송에서 잠재적으로 중요한 증거를 실수로 삭제했다는 비난을 받았습니다.
원고측 변호사들은 데이터 복구를 위해 많은 시간과 인력을 투입했다고 말했다.
OpenAI는 공개적으로 사용 가능한 데이터를 모델 교육에 사용하는 것이 공정 사용이라고 주장합니다.
이번 사건은 인공지능 모델 훈련 데이터의 출처와 저작권 문제의 복잡성이 부각되면서 데이터 보안과 증거 관리에 대한 우려도 제기되고 있다. OpenAI의 행위가 침해에 해당하는지, '공정한 사용'의 경계를 어떻게 정의할 것인지는 향후 더 많은 논의가 필요한 중요한 문제가 될 것입니다. 이번 사건의 최종 결과는 인공지능 산업의 발전에 지대한 영향을 미치게 될 것이다.