Di bidang AI yang sedang booming, metode akuisisi data semakin menjadi fokus. Artikel ini membahas kontroversi yang disebabkan oleh perilaku pengikisan data skala besar yang dilakukan tim Claude di bawah perusahaan AI Anthropic. Program perayap tim Claude, ClaudeBot, merayapi sejumlah besar data dari beberapa situs web tanpa izin, yang tidak hanya melanggar peraturan situs web, tetapi juga menyebabkan konsumsi sumber daya server dalam jumlah besar, sehingga memicu kritik dan kekhawatiran luas. Insiden ini menyoroti kontradiksi antara pengembangan AI dan perlindungan hak cipta data, sehingga memicu industri untuk memikirkan kembali etika dan norma hukum akuisisi data.
Penyebab kejadian tersebut adalah crawler tim Claude mengunjungi server perusahaan sebanyak 1 juta kali dalam waktu 24 jam, merayapi konten situs web secara gratis. Perilaku ini tidak hanya secara terang-terangan mengabaikan pengumuman larangan perayapan situs web, tetapi juga secara paksa menghabiskan sejumlah besar sumber daya server.
Meskipun telah melakukan upaya terbaik untuk mempertahankan diri, perusahaan korban akhirnya gagal mencegah tim Claude mengambil data. Para pemimpin perusahaan dengan marah turun ke media sosial untuk mengutuk tindakan tim Claude. Banyak juga netizen yang mengungkapkan ketidakpuasannya, bahkan ada yang menyarankan penggunaan kata mencuri untuk menggambarkan perilaku tersebut.
Perusahaan yang terlibat adalah iFixit, situs e-commerce dan panduan Amerika. iFixit menawarkan jutaan halaman panduan perbaikan online gratis yang mencakup perangkat elektronik dan gadget konsumen. Namun, iFixit menemukan bahwa program perayap Claude, ClaudeBot, memulai sejumlah besar permintaan dalam waktu singkat, mengakses 10 TB file dalam satu hari, dan total 73 TB sepanjang bulan Mei.
CEO iFixit Kyle Wiens mengatakan bahwa ClaudeBot mencuri semua data mereka tanpa izin dan menduduki sumber daya server. Meskipun iFixit secara eksplisit menyatakan di situs webnya bahwa pengikisan data tanpa izin dilarang, tim Claude tampaknya menutup mata terhadap hal ini.
Perilaku tim Claude tidaklah unik. Pada bulan April tahun ini, forum Linux Mint juga sering dikunjungi oleh ClaudeBot, menyebabkan forum berjalan lambat atau bahkan crash. Selain itu, beberapa suara menunjukkan bahwa selain Claude dan GPT OpenAI, ada banyak perusahaan AI lain yang juga mengabaikan pengaturan robots.txt situs web dan secara paksa mengambil data.
Menghadapi situasi ini, pemilik situs web disarankan untuk menambahkan konten palsu dengan informasi unik atau dapat dilacak ke halaman untuk mendeteksi apakah data tersebut telah diambil secara ilegal. iFixit sebenarnya telah mengambil langkah ini dan menemukan bahwa data mereka tidak hanya diambil oleh Claude, tetapi juga oleh OpenAI.
Insiden ini memicu diskusi luas mengenai praktik pengikisan data yang dilakukan perusahaan AI. Di satu sisi, pengembangan AI memang membutuhkan data dalam jumlah besar untuk mendukungnya; di sisi lain, pengambilan data juga harus menghormati hak dan peraturan pemilik website. Bagaimana menemukan keseimbangan antara mendorong kemajuan teknologi dan melindungi hak cipta adalah pertanyaan yang perlu dipikirkan oleh seluruh industri.
Insiden perampasan data yang dilakukan tim Claude mengingatkan perusahaan AI bahwa sembari mengejar kemajuan teknologi, mereka harus menghormati hak kekayaan intelektual, mematuhi undang-undang dan peraturan, dan secara aktif mencari cara yang sesuai untuk mendapatkan data. Hanya dengan cara ini kita dapat memastikan perkembangan teknologi AI yang sehat dan menghindari rusaknya reputasi industri dan kepercayaan publik karena perilaku yang tidak pantas.