El rastreador web ClaudeBot utilizado por Anthropic visitó con frecuencia el sitio web de iFixit durante un período de 24 horas, lo que parecía violar los términos de uso de la empresa.
El director ejecutivo de iFixit, Kyle Wiens, dijo que este no solo era un uso no autorizado del contenido, sino que también consumía sus recursos de desarrollo. En respuesta a esto, Fixit agregó una extensión de retraso de rastreo a robots.txt para restringir el acceso del rastreador.
Además de iFixit, el cofundador de Read the Docs, Eric Holscher, y el director ejecutivo de Freelancer.com, Matt Barrie, también informaron que sus sitios web fueron invadidos por el rastreador Anthropic.
En los meses anteriores, las publicaciones de Reddit informaron de un fuerte aumento en la actividad de web scraping de Anthropic. En abril de este año, la interrupción del sitio en el foro web de Linux Mint también se atribuyó a la actividad de rastreo de ClaudeBot.
Muchas empresas de inteligencia artificial como OpenAI niegan el acceso de los rastreadores a través de archivos robots.txt, pero esto no brinda a los propietarios de sitios web la opción de definir de manera flexible qué contenido de rastreo está permitido y prohibido. Se descubrió que otra empresa de inteligencia artificial, Perplexity, ignoraba por completo las reglas de exclusión de robots.txt.
Aún así, es una de las pocas opciones que tienen muchas empresas para proteger los datos para que no se utilicen como material de capacitación en inteligencia artificial, y Reddit también ha tomado medidas recientemente contra los rastreadores web.