메타컴퍼니(Meta Company)가 최신 AI 챗봇 라마3(Llama3)의 훈련 데이터 출처를 놓고 큰 논란을 일으켰다. 공개된 문서에 따르면 Meta는 불법 복제된 전자책 웹사이트 Library Genesis(LibGen)를 사용하여 Llama3를 훈련시켰는데, 이는 저작권 및 데이터 소유권에 대한 광범위한 우려를 불러일으켰습니다. Meta 내부 직원들은 LibGen 사용에 따른 잠재적인 법적 위험과 부정적인 평판 등의 위험에 대해 우려를 표명했지만, Zuckerberg CEO는 AI 무관심 경쟁에서 거대 기술 기업의 공격적인 전술과 저작권 보호를 강조하면서 여전히 결정을 승인했습니다.
최근 메타가 저작권 집단소송에서 공개한 문서가 공개되면서 이 회사는 라이브러리 제네시스(LibGen)라는 불법 복제 전자책 라이브러리를 이용해 자사의 최신 AI 챗봇 라마3(Llama3)를 훈련시켜 큰 주목을 받았다. 문서에는 Meta 엔지니어들이 특히 저작권 및 데이터 소유권에 대한 우려가 커지는 가운데 "그림자 라이브러리"인 LibGen을 활용하는 데 따른 잠재적인 위험에 대해 논의한 것으로 나와 있습니다. 잠재적인 부정적인 영향과 홍보 위험에도 불구하고 Meta CEO인 Mark Zuckerberg는 이 결정을 승인했습니다.
법원의 요청에 따라 LibGen 데이터 세트 사용에 관한 Meta 내부의 기밀 대화 기록은 기밀 해제되었습니다. 문서에는 Meta 경영진이 AI 연구팀과의 논의에서 LibGen의 데이터가 "우리가 알고 있는 것"임을 분명히 밝혔음을 보여줍니다. 불법 복제될 수 있습니다." Llama3의 성능을 개선하기 위해 이 데이터를 사용하는 데 동의합니다. 이메일에서 Meta의 제품 관리 이사인 Sony Theakanath는 LibGen을 사용하기로 한 결정이 여론 위험을 촉발했지만 다른 AI 회사들도 유사한 데이터를 사용하고 있기 때문에 Meta의 팀은 이 경로가 고립된 경로가 아니라고 느끼게 한다고 지적했습니다.
더욱 걱정스럽게도 Meta 직원은 ISBN 및 저작권 표시와 같은 저작권 표시를 제거하기 위해 LibGen에서 텍스트를 처리하고 필터링하는 방법에 대해서도 논의했습니다. 내부 메모에는 LibGen에서 제공하는 자료가 "고품질이고 긴 형식이므로 특히 전문적인 주제를 학습하는 데 이상적"이라고 나와 있습니다. 이는 메타가 승인되지 않은 콘텐츠 사용을 은폐하려는 것으로 보입니다.
또한 메타 직원들은 이메일에서 토렌트에 회사 IP 주소를 직접 사용하는 것이 부적절할 수 있다고 언급하며 이러한 행위에 대해 우려를 표명하기도 했습니다. 하지만 저커버그가 LibGen 데이터 세트를 활용하기 위해 "위에서 밀어붙이고 있다"는 점에서 AI 경쟁에서 메타의 승리 멘탈리티가 여실히 드러난다. 이번 사건은 거대 기술기업의 저작권 문제에 대한 관심과 의구심을 다시 한 번 불러일으켰다.
본 저작권 소송의 결과는 특히 이미지, 음악, 문학과 같은 창작물 사용과 관련하여 진행 중인 다른 유사한 소송에 중요한 영향을 미칠 수 있습니다. 기술 기업의 오리지널 콘텐츠에 대한 수요가 계속 증가함에 따라, 오리지널 콘텐츠 창작자의 권리가 관심의 초점이 될 것입니다.
이번 사건은 저작권 문제에 대한 메타의 무책임한 태도를 드러냈을 뿐만 아니라, AI 개발에 있어 윤리적, 법적 문제에 대한 사람들의 깊이 있는 사고를 촉발시켰습니다. 앞으로는 기술개발과 지적재산권 보호의 균형이 어떻게 중요한 문제가 될 것이며, 이에 대한 해결책을 찾기 위해서는 업계 내외의 공동 노력이 필요할 것입니다.