다운코드 편집자는 학술 논문의 "대체 용도"를 이해하는 데 도움을 줄 것입니다! 최근 몇 년 동안 AI 모델의 훈련 데이터 소스가 광범위한 관심을 끌었습니다. 많은 학술 출판사는 AI 시스템의 기능을 향상시키기 위해 연구 논문을 기술 회사에 "포장하여 판매"하고 있습니다. 여기에는 대규모 거래가 포함되었으며 지적 재산권, 저작자 권리 및 AI 개발 윤리에 대한 학계의 열띤 토론이 촉발되었습니다. 이 기사에서는 이 현상의 메커니즘, 영향 및 향후 동향을 자세히 살펴보겠습니다.
귀하의 연구 논문이 AI 훈련에 사용될 수 있다고 생각해 본 적이 있습니까? 예, 많은 학술 출판사는 AI 모델을 개발하는 기술 회사에 결과를 "포장하여 판매"하고 있습니다. 특히 저자가 이에 대해 아무것도 모르는 경우 이러한 움직임이 과학 연구 커뮤니티에 상당한 동요를 일으켰다는 것은 의심의 여지가 없습니다. 전문가들은 귀하의 모델이 LLM(대형 언어 모델)에서 아직 사용되고 있지 않다면 가까운 시일 내에 사용하게 될 가능성이 높다고 말합니다.
최근 영국 학술 출판사인 Taylor & Francis는 Microsoft와 1,000만 달러 규모의 계약을 체결하여 Microsoft가 연구 데이터를 사용하여 AI 시스템의 기능을 향상시킬 수 있도록 허용했습니다. 이르면 6월 초 미국 출판사인 Wiley도 한 회사와 계약을 맺고 콘텐츠를 생성 AI 모델 훈련에 사용하는 대가로 2,300만 달러의 수익을 얻었습니다.
공개 액세스이든 유료화이든 관계없이 온라인에서 논문을 사용할 수 있는 경우 해당 논문은 대규모 언어 모델에 공급되었을 가능성이 높습니다. 워싱턴 대학의 AI 연구원인 루시 루 왕(Lucy Lu Wang)은 “모델을 훈련하는 데 종이를 사용하면 모델이 훈련된 후에는 제거할 수 없습니다.”라고 말했습니다.
대규모 언어 모델을 훈련하려면 많은 양의 데이터가 필요하며, 이는 종종 인터넷에서 스크랩됩니다. 수십억 개의 언어 조각을 분석함으로써 이러한 모델은 유창한 텍스트를 학습하고 생성할 수 있습니다. 학술 논문은 정보 밀도가 높고 길이가 길기 때문에 LLM 개발자에게 매우 귀중한 "보물"이 되었습니다. 이러한 데이터는 AI가 과학에서 더 나은 추론을 하는 데 도움이 됩니다.
최근에는 고품질 데이터 세트를 구매하는 경향이 높아지고 있으며, 많은 유명 미디어와 플랫폼이 AI 개발자와 협력하여 콘텐츠를 판매하기 시작했습니다. 합의가 없으면 많은 저작물이 조용히 스크랩될 수 있다는 점을 고려하면 이러한 협력은 앞으로 더욱 보편화될 것입니다.
그러나 대규모 인공 지능 네트워크(Large-scale Artificial Intelligence Network)와 같은 일부 AI 개발자는 데이터 세트를 공개하는 것을 선택하지만 생성 AI를 개발하는 많은 회사는 훈련 데이터에 대해 알려진 바가 없습니다.” arXiv와 같은 플랫폼과 PubMed와 같은 데이터베이스는 의심할 여지 없이 AI 회사가 크롤링하는 인기 있는 대상입니다.
특정 LLM의 훈련 세트에 특정 논문이 나타나는지 여부를 증명하는 것은 간단하지 않습니다. 연구자들은 모델 출력이 원본 텍스트와 일치하는지 테스트하기 위해 논문의 특이한 문장을 사용할 수 있지만, 개발자가 훈련 데이터를 직접 출력하지 않도록 모델을 조정할 수 있기 때문에 이것이 논문이 사용되지 않았다는 것을 완전히 증명하지는 못합니다.
LLM이 특정 텍스트를 사용한 것이 입증된 경우에도 출판사는 저작권이 있는 텍스트를 무단으로 사용하는 것이 침해에 해당한다고 주장하지만, LLM이 텍스트를 복사하는 것이 아니라 오히려 새로운 텍스트를 생성한다는 이의도 있습니다. 정보 내용을 분석하여
현재 미국에서는 획기적인 사건이 될 수 있는 저작권 소송이 진행 중이다. New York Times는 Microsoft와 ChatGPT 개발자 OpenAI가 뉴스 콘텐츠를 사용하여 허가 없이 모델을 훈련시켰다고 비난하면서 소송을 제기했습니다.
많은 학자들은 특히 이러한 모델이 연구의 정확성을 향상시킬 수 있는 경우 LLM 교육 데이터에 자신의 연구 결과가 포함되는 것을 환영합니다. 그러나 해당 분야의 모든 연구자가 이를 적극적으로 받아들이는 것은 아니며 많은 연구자가 자신의 직업이 위협받고 있다고 느낍니다.
일반적으로 개별 과학 저자는 현재 출판사의 판매 결정에 거의 발언권을 갖고 있지 않으며, 크레딧이 할당되는 방식과 출판된 논문에 사용되는지 여부에 대한 명확한 메커니즘이 없습니다. 일부 연구자들은 “우리는 AI 모델의 도움을 받기를 희망하지만 공정한 메커니즘도 있기를 희망합니다. 아직 그러한 해결책을 찾지 못했습니다.”라고 불만을 표시했습니다.
참고자료:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
AI와 학술출판의 향후 방향은 아직 불분명하며, 저작권 문제, 데이터 프라이버시, 저자 권익 보호 메커니즘 모두 더욱 개선되어야 합니다. 이는 출판사와 기술 기업 간의 게임일 뿐만 아니라, 학술 연구의 지속 가능한 발전과 AI 기술 윤리와 관련된 중요한 문제이므로 사회 전체의 공동 관심과 노력이 필요합니다.