Esta es una lista abierta de rastreadores web asociados con empresas de inteligencia artificial y la capacitación de LLM para bloquearlos. Le animamos a contribuir e implementar esta lista en su propio sitio. Consulte información sobre los rastreadores enumerados y las preguntas frecuentes.
Varios de estos rastreadores provienen de Dark Visitantes y apreciamos el esfuerzo continuo que realizan para rastrearlos.
Si desea agregar información sobre un rastreador a la lista, realice una solicitud de extracción con el nombre del bot agregado a robots.txt
, ai.txt
y cualquier detalle relevante en table-of-bot-metrics.md
para ayudar. la gente entiende lo que se arrastra.
Una nota sobre la contribución: se deben agregar/realizar actualizaciones en robots.json
. Una acción de GitHub, cortesía de Adam, generará el robots.txt
y table-of-bot-metrics.md
actualizados.
Puede suscribirse a las actualizaciones de la lista a través de RSS/Atom con el feed de lanzamientos:
https://github.com/ai-robots-txt/ai.robots.txt/releases.atom
Puedes suscribirte con Feedly, Inoreader, The Old Reader, Feedbin o cualquier otra aplicación de lectura.
Alternativamente, también puedes suscribirte a nuevas versiones con tu cuenta de GitHub haciendo clic en el botón "Ver" en la parte superior de esta página, haciendo clic en "Personalizado" y seleccionando "Versiones".
Si utiliza el bloqueo duro de Cloudflare junto con esta lista, puede denunciar rastreadores abusivos que no respetan robots.txt
aquí.