Anthropic 使用的ClaudeBot 網路爬蟲在24小時內經常造訪iFixit 網站,似乎違反了復公司的使用條款。
iFixit CEO Kyle Wiens 表示,這種為不僅未經授權地使用內容,還佔用了他們的開發資源。對此事,Fixit 已經在robots.txt 中添加了crawl-delay 擴展以限制爬蟲訪問。
除了iFixit 外,Read the Docs 的共同創辦人Eric Holscher 和Freelancer.com 的CEO Matt Barrie 也稱他們的網站遭到Anthropic 爬蟲的侵擾。
前幾個月,有Reddit 貼文報告Anthropic 的網頁抓取活動急劇增加。今年4月,Linux Mint 網頁論壇的站點故障也被歸因於ClaudeBot 的抓取活動。
許多AI 公司像OpenAI 都透過robots.txt 檔案來拒絕爬蟲訪問,但這並不提供網站所有者靈活定義允許和禁止哪些抓取內容的選項。另一家AI 公司Perplexity 則被發現完全忽略robots.txt 排除規則。
儘管如此,這仍是許多公司保護資料不被用於AI 訓練材料的少數選擇之一,Reddit 最近也在打擊網路爬蟲方面採取了行動。