Baru-baru ini, Oleksandr Tomchuk, CEO Trilegangers, menerima peringatan darurat yang mengatakan situs web e-commerce perusahaannya tiba-tiba lumpuh. Setelah penyelidikan mendalam, ia menemukan bahwa akar masalah terletak pada robot OpenAI yang tanpa henti merayap konten seluruh situs webnya. Situs web Trilegangers memiliki lebih dari 65.000 produk, masing -masing dengan halaman terperinci dan setidaknya tiga gambar. Robot Openai mengirim puluhan ribu permintaan server untuk mencoba mengunduh semuanya, termasuk ratusan ribu gambar dan deskripsi mereka.
Tomchuk menunjukkan bahwa crawler Openai telah memiliki dampak serius pada situs web, hampir setara dengan serangan penolakan terdistribusi (DDOS). Bisnis utama Trilegangers adalah menyediakan file dan gambar objek 3D untuk artis 3D, pengembang video game, dan pengguna lain yang perlu mereproduksi karakteristik manusia yang nyata secara digital. Dokumen -dokumen ini termasuk data pemindaian terperinci dari tangan ke rambut, kulit dan seluruh tubuh.
Situs web Trilegangers adalah jantung dari bisnisnya. Perusahaan ini telah menghabiskan lebih dari satu dekade membangun database "stand-in untuk tubuh manusia" terbesar di jaringan, semua dari pemindaian 3D tubuh manusia nyata. Tim Tomchuk berkantor pusat di Ukraina, tetapi juga telah dilisensikan di Tampa, Florida, AS. Meskipun ada persyaratan halaman layanan di situs web yang secara eksplisit melarang robot yang tidak sah merangkak, ini belum secara efektif memblokir robot Openai.
Untuk mencegah robot merangkak secara efektif, situs web harus mengkonfigurasi dengan benar file robot.txt. Robot.txt, juga dikenal sebagai protokol Bot Exclusion, dirancang untuk memberi tahu mesin pencari apa konten yang tidak boleh diindeks. Openai mengatakan pada halaman resminya bahwa mereka menghormati file ketika situs web dikonfigurasi dengan tag yang dilarang merangkak, tetapi juga memperingatkan bahwa robotnya mungkin memakan waktu hingga 24 jam untuk mengenali file robot.txt yang diperbarui.
Tomchuk menekankan bahwa jika situs web tidak menggunakan robot.txt dengan benar, openai dan perusahaan lain mungkin berpikir mereka dapat merangkak data sesuka hati. Ini bukan sistem opsional, tetapi ukuran yang diperlukan untuk melindungi konten situs web. Lebih buruk lagi, Trilegangers tidak hanya dipaksa untuk offline oleh robot Openai selama jam kerja AS, Tomchuk juga mengharapkan peningkatan yang signifikan dalam tagihan AWS karena robot CPU besar dan aktivitas unduhan.
Namun, robot.txt bukan solusi lengkap. Apakah perusahaan AI mematuhi perjanjian ini sepenuhnya tergantung pada sukarela mereka. Peristiwa itu menarik perhatian luas musim panas lalu ketika startup AI lain, kebingungan, diselidiki oleh kabel karena dugaan kegagalan untuk mematuhi protokol robot.txt.
Tomchuk mengatakan dia tidak dapat menemukan cara untuk menghubungi Openai dan menanyakannya. Openai juga tidak menanggapi permintaan komentar TechCrunch. Selain itu, Openai sejauh ini gagal memberikan komitmen jangka panjang untuk alat opt-out, yang membuat masalah ini semakin rumit.
Ini adalah masalah yang sangat rumit bagi trilegangers. Tomchuk mencatat bahwa bisnis yang mereka lakukan melibatkan masalah hak -hak serius karena mereka memindai orang -orang nyata. Di bawah GDPR Eropa dan undang -undang lainnya, adalah ilegal untuk menggunakan foto langsung secara online tanpa izin.
Ironisnya, perilaku serakah robot openai telah membuat trileganger sadar akan kerentanan situs web mereka. Tomchuk mengatakan bahwa jika robot itu merangkak data dengan cara yang lebih lembut, dia mungkin tidak akan pernah melihat masalahnya.
"Ini menakutkan karena perusahaan -perusahaan ini tampaknya mengeksploitasi kerentanan terhadap data merangkak, dan mereka mengatakan 'jika Anda memperbarui robot.txt Anda dengan tag kami, Anda dapat memilih keluar'," kata Tomchuk. Namun, ini sebenarnya menyalahkan pemilik bisnis, meminta mereka untuk memahami cara menghentikan robot -robot ini.
Tomchuk berharap bisnis online kecil lainnya akan menyadari bahwa satu -satunya cara untuk mengetahui apakah bot AI mencuri aset hak cipta di situs web adalah dengan secara aktif mencarinya. Dia bukan satu -satunya yang bermasalah dengan robot AI. Pemilik situs web lain juga mengungkapkan kepada Business Insider bagaimana bot Openai mengganggu situs web mereka dan meningkatkan biaya AWS mereka.
Pada tahun 2024, masalah ini diperkirakan akan memburuk lebih lanjut. Penelitian baru oleh perusahaan periklanan digital DoubleVerify menemukan bahwa perayap AI dan perayap telah menghasilkan peningkatan 86% dalam "lalu lintas tidak valid umum" yang bukan dari pengguna nyata tetapi dari aktivitas bot.