최근 Google의 Gemini-Pro 중국어 말뭉치 훈련은 Baidu Wenxin Yiyan 데이터를 훈련에 사용했다는 사실을 인정하여 소셜 미디어에서 소란을 일으켰습니다. 많은 네티즌들이 대기업 간 불공정 경쟁이 있었는지 의문을 제기하며 인공지능 모델 훈련 데이터의 출처와 윤리성에 대한 논의가 촉발됐다. 사건의 핵심은 Gemini-Pro가 중국어 말뭉치 훈련에서 Baidu Wenxinyiyan의 데이터에 의존했다는 것입니다. 이는 데이터 소유권 및 지적 재산권에 대한 업계의 경계에 직접적으로 도전했으며 대규모 언어 모델 훈련에서 발생할 수 있는 위험과 숨겨진 위험도 노출했습니다. .
이 기사는 다음에 중점을 둡니다.
구글의 제미니프로(Gemini-Pro) 중국어 코퍼스가 논란을 일으켰다. 바이두 원신이얀(Baidu Wenxinyiyan)을 훈련에 활용한 것으로 네티즌들은 대기업들이 서로의 양털을 훔치려 하는 게 아닌가 하는 의문을 품었다. Gemini-Pro는 테스트 중에 정체성에 대해 혼란스러운 모습을 보여 소셜 미디어의 관심을 불러일으켰습니다. Gemini 관계자는 마침내 중국 훈련 데이터에 Baidu Wenxin을 사용했다는 사실을 인정하여 주제를 더욱 심화시켰습니다.
이번 사건은 인공지능 분야에서 데이터 자원 공유와 지적재산권 보호 사이의 모순을 부각시킬 뿐만 아니라, 대규모 언어 모델의 신뢰성과 투명성에 대한 우려도 제기하고 있습니다. 앞으로 인공지능 모델의 교육과 적용은 산업의 건전한 발전을 보장하기 위해 더욱 표준화된 관리와 더욱 엄격한 윤리 기준이 필요할 것입니다.