최근 Google이 Gemini 인공지능 프로젝트를 개선하기 위해 Anthropic의 Claude 모델을 사용하고 있다는 보도가 있었습니다. 내부 문서에 따르면 Google 계약업체는 Gemini의 성과를 평가하고 개선하기 위해 Gemini와 Claude의 결과물을 체계적으로 비교하고 있습니다. 이러한 접근 방식은 업계의 관심을 끌었으며 AI 모델 평가에 대한 업계 표준과 여러 회사 간의 기술 협력에 대한 윤리적 문제도 포함됩니다. 이 기사에서는 이 사건의 세부 사항을 조사하고 잠재적인 영향을 분석할 것입니다.
최근 Google의 Gemini 인공지능 프로젝트는 출력 결과를 Anthropic의 Claude 모델과 비교하여 성능을 향상시키고 있습니다. TechCrunch가 입수한 내부 통신에 따르면 Gemini 개선을 담당하는 계약자는 두 AI 모델의 답변을 체계적으로 평가하고 있습니다.
AI 업계에서는 모델 성능 평가를 계약업체가 여러 모델의 답변을 하나씩 비교하는 방식이 아닌 업계 벤치마크를 통해 이뤄지는 경우가 많다. Gemini를 담당하는 계약자는 신뢰성 및 세부 수준을 포함한 여러 기준을 기반으로 모델의 출력에 점수를 매겨야 합니다. 그들은 쌍둥이자리와 클로드 중 어느 대답이 더 나은지 결정하는 데 매번 최대 30분의 시간을 가졌습니다.
최근 이들 계약자들은 그들이 사용하는 내부 플랫폼에 Claude에 대한 언급이 자주 나타나는 것을 발견했습니다. 계약업체에 표시된 내용 중 일부는 "나는 Anthropic에서 만든 Claude입니다."라고 명시했습니다. 내부 채팅에서 계약업체는 Claude의 답변이 보안에 더 중점을 두고 있다는 사실도 발견했습니다. 일부 계약자는 Claude의 보안 설정이 모든 AI 모델 중에서 가장 엄격하다고 지적했습니다. 경우에 따라 Claude는 다른 AI 보조자 역할극과 같이 안전하지 않다고 간주되는 메시지에 응답하지 않기로 결정합니다. 또 다른 경우에는 Claude가 프롬프트를 피했고 Gemini의 답변은 "나체 노출 및 속박"을 포함하는 "중요한 안전 위반"으로 표시되었습니다.
Anthropic의 상용 서비스 약관에서는 고객이 허가 없이 Claude를 사용하여 "경쟁 제품 또는 서비스 구축" 또는 "경쟁 AI 모델 교육"을 수행하는 것을 금지하고 있습니다. Google은 Anthropic의 주요 투자자 중 하나입니다.
TechCrunch와의 인터뷰에서 Google DeepMind 대변인 Shira McNamara는 Google이 Claude를 사용하도록 Anthropic으로부터 승인을 받았는지 여부를 공개하지 않았습니다. McNamara는 DeepMind가 평가를 위해 모델 출력을 비교하지만 Claude 모델에서 Gemini를 교육하지는 않는다고 말했습니다. "물론 표준 산업 관행에 따라 어떤 경우에는 모델 결과를 비교할 것입니다. 그러나 Gemini를 훈련하기 위해 Anthropic 모델을 사용했다는 제안은 정확하지 않습니다."
지난주 TechCrunch는 또한 Google 계약업체가 전문 분야 이외의 영역에서 Gemini의 AI 응답을 평가하도록 요청받았다고 단독 보도했습니다. 일부 계약업체는 내부 커뮤니케이션에서 Gemini가 건강 관리와 같은 민감한 주제에 대해 부정확한 정보를 생성할 수 있다는 우려를 표명했습니다.
하이라이트:
Gemini는 자체 AI 모델의 성능 향상을 위해 Claude와 비교 테스트를 진행하고 있습니다.
채점은 계약업체가 담당하며, 두 사람의 응답은 진정성과 안전성을 포함한 여러 기준에 걸쳐 비교됩니다.
Anthropic은 경쟁 모델 훈련을 위해 Claude를 무단으로 사용하는 것을 금지합니다.
Google이 Gemini의 행동을 개선하기 위해 Claude 모델을 사용한 것은 AI 모델 평가 방법, 데이터 사용 윤리 및 경쟁 관계에 대한 논의를 촉발시켰습니다. 앞으로는 유사한 기업 간 AI 모델 비교가 업계의 표준이 될지, 그리고 그러한 행위를 어떻게 규제할 것인지는 더욱 주목할 만하다. 이는 AI 산업의 발전과 규제에 지대한 영향을 미칠 것이다.