O rastreador da web ClaudeBot usado pela Anthropic visitou frequentemente o site iFixit durante um período de 24 horas, parecendo violar os termos de uso da empresa.
O CEO da iFixit, Kyle Wiens, disse que esse não era apenas o uso não autorizado de conteúdo, mas também consumia seus recursos de desenvolvimento. Em resposta a isso, Fixit adicionou uma extensão de atraso de rastreamento ao robots.txt para restringir o acesso do rastreador.
Além do iFixit, o cofundador do Read the Docs, Eric Holscher, e o CEO do Freelancer.com, Matt Barrie, também relataram que seus sites foram invadidos pelo rastreador Anthropic.
Nos meses anteriores, as postagens do Reddit relataram um aumento acentuado na atividade de web scraping da Anthropic. Em abril deste ano, uma interrupção do site do fórum Linux Mint também foi atribuída à atividade de rastreamento de ClaudeBot.
Muitas empresas de IA, como a OpenAI, negam o acesso do rastreador por meio de arquivos robots.txt, mas isso não oferece aos proprietários de sites a opção de definir com flexibilidade qual conteúdo de rastreamento é permitido e proibido. Descobriu-se que outra empresa de IA, a Perplexity, ignorava completamente as regras de exclusão do robots.txt.
Ainda assim, é uma das poucas opções que muitas empresas têm para proteger os dados contra uso em material de treinamento de IA, e o Reddit também tomou medidas recentemente contra rastreadores da web.