Il s'agit d'une liste ouverte de robots d'exploration Web associés aux sociétés d'IA et à la formation des LLM à bloquer. Nous vous encourageons à contribuer à cette liste et à la mettre en œuvre sur votre propre site. Consultez les informations sur les robots répertoriés et la FAQ.
Un certain nombre de ces robots proviennent de visiteurs obscurs et nous apprécions les efforts continus qu'ils déploient pour suivre ces robots.
Si vous souhaitez ajouter des informations sur un robot à la liste, veuillez effectuer une pull request avec le nom du robot ajouté à robots.txt
, ai.txt
et tous les détails pertinents dans table-of-bot-metrics.md
pour vous aider. les gens comprennent ce qui rampe.
Une note sur la contribution : des mises à jour doivent être ajoutées/effectuées sur robots.json
. Une action GitHub, gracieuseté d'Adam, générera ensuite les robots.txt
et table-of-bot-metrics.md
mis à jour.
Vous pouvez vous abonner aux mises à jour de la liste via RSS/Atom avec le flux des versions :
https://github.com/ai-robots-txt/ai.robots.txt/releases.atom
Vous pouvez vous abonner avec Feedly, Inoreader, The Old Reader, Feedbin ou toute autre application de lecture.
Alternativement, vous pouvez également vous abonner aux nouvelles versions avec votre compte GitHub en cliquant sur le bouton « Regarder » en haut de cette page, en cliquant sur « Personnalisé » et en sélectionnant « Versions ».
Si vous utilisez le bloc dur de Cloudflare à côté de cette liste, vous pouvez signaler ici les robots d'exploration abusifs qui ne respectent pas robots.txt
.