En el floreciente campo de la IA, los métodos de adquisición de datos se están convirtiendo cada vez más en el centro de atención. Este artículo explora la controversia causada por el comportamiento de extracción de datos a gran escala del equipo de Claude de la empresa de inteligencia artificial Anthropic. El programa de rastreo del equipo de Claude, ClaudeBot, rastreó una gran cantidad de datos de múltiples sitios web sin autorización, lo que no solo violó las regulaciones del sitio web, sino que también provocó un enorme consumo de recursos del servidor, lo que provocó críticas y preocupaciones generalizadas. Este incidente pone de relieve la contradicción entre el desarrollo de la IA y la protección de los derechos de autor de los datos, lo que llevó a la industria a repensar la ética y las normas legales de la adquisición de datos.
La causa del incidente fue que el rastreador del equipo de Claude visitó el servidor de una empresa 1 millón de veces en 24 horas, rastreando el contenido del sitio web de forma gratuita. Este comportamiento no solo ignoró descaradamente el anuncio de prohibición de rastreo del sitio web, sino que también ocupó por la fuerza una gran cantidad de recursos del servidor.
A pesar de sus mejores esfuerzos por defenderse, la empresa víctima finalmente no logró evitar que el equipo de Claude extrajera datos. Los líderes de la empresa, enojados, recurrieron a las redes sociales para condenar las acciones del equipo de Claude. Muchos internautas también expresaron su descontento y algunos incluso sugirieron usar la palabra robar para describir este comportamiento.
La empresa involucrada es iFixit, un sitio web estadounidense de comercio electrónico y procedimientos. iFixit ofrece millones de páginas de guías de reparación en línea gratuitas que cubren dispositivos y aparatos electrónicos de consumo. Sin embargo, iFixit descubrió que el programa de rastreo de Claude, ClaudeBot, inició una gran cantidad de solicitudes en un corto período de tiempo, accediendo a 10 TB de archivos en un día y a un total de 73 TB en todo el mes de mayo.
El director ejecutivo de iFixit, Kyle Wiens, dijo que ClaudeBot robó todos sus datos sin permiso y ocupó recursos del servidor. Aunque iFixit declara explícitamente en su sitio web que la extracción de datos no autorizada está prohibida, el equipo de Claude parece estar haciendo la vista gorda ante esto.
El comportamiento del equipo de Claude no es único. En abril de este año, el foro Linux Mint también sufrió visitas frecuentes de ClaudeBot, lo que provocó que el foro funcionara lentamente o incluso fallara. Además, algunas voces señalaron que, además de Claude y GPT de OpenAI, hay muchas otras empresas de inteligencia artificial que también ignoran la configuración de robots.txt del sitio web y capturan datos por la fuerza.
Ante esta situación, se ha sugerido que los propietarios de sitios web agreguen contenido falso con información rastreable o única a la página para detectar si los datos han sido extraídos ilegalmente. De hecho, iFixit dio este paso y descubrió que sus datos fueron extraídos no solo por Claude, sino también por OpenAI.
El incidente provocó un debate generalizado sobre las prácticas de extracción de datos de las empresas de inteligencia artificial. Por un lado, el desarrollo de la IA requiere una gran cantidad de datos que lo respalden; por otro, la captura de datos también debe respetar los derechos y regulaciones del propietario del sitio web; Cómo encontrar un equilibrio entre la promoción del progreso tecnológico y la protección de los derechos de autor es una cuestión en la que toda la industria debe pensar.
El incidente de apropiación de datos del equipo de Claude hizo sonar la alarma y recordó a las empresas de inteligencia artificial que, mientras persiguen el progreso tecnológico, deben respetar los derechos de propiedad intelectual, cumplir con las leyes y regulaciones y explorar activamente formas compatibles para obtener datos. Sólo así podremos garantizar el desarrollo saludable de la tecnología de IA y evitar dañar la reputación de la industria y la confianza del público debido a un comportamiento inadecuado.