Anthropic이 사용하는 ClaudeBot 웹 크롤러는 24시간 동안 iFixit 웹사이트를 자주 방문하여 회사의 이용 약관을 위반한 것으로 보입니다.
iFixit CEO Kyle Wiens는 이러한 콘텐츠의 무단 사용뿐 아니라 개발 자원도 소모했다고 말했습니다. 이에 대응하여 Fixit은 크롤러 액세스를 제한하기 위해 robots.txt에 크롤링 지연 확장을 추가했습니다.
iFixit 외에도 Read the Docs 공동 창립자인 Eric Holscher와 Freelancer.com CEO Matt Barrie도 그들의 웹사이트가 Anthropic 크롤러의 침입을 받았다고 보고했습니다.
지난 몇 달 동안 Reddit 게시물에서는 Anthropic의 웹 스크래핑 활동이 급격히 증가했다고 보고했습니다. 올해 4월에는 Linux Mint 웹 포럼의 사이트 중단도 ClaudeBot의 크롤링 활동으로 인해 발생했습니다.
OpenAI와 같은 많은 AI 회사는 robots.txt 파일을 통한 크롤러 액세스를 거부하지만, 이는 웹사이트 소유자에게 어떤 크롤링 콘텐츠가 허용되고 금지되는지 유연하게 정의할 수 있는 옵션을 제공하지 않습니다. 또 다른 AI 회사인 Perplexity는 robots.txt 제외 규칙을 완전히 무시하는 것으로 밝혀졌습니다.
그럼에도 불구하고 이는 많은 기업이 데이터가 AI 교육 자료에 사용되지 않도록 보호해야 하는 몇 가지 옵션 중 하나이며 Reddit도 최근 웹 크롤러에 대해 조치를 취했습니다.