Perlindungan keamanan antropik menghadapi tantangan, pengujian jailbreak umum model AI mengungkapkan terobosan - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-14 08:48:01

Artikel ini membahas hasil tes model AI Anthropic AI Claude 3.5 Security Protection System. Para peneliti menguji keefektifan mekanisme keselamatan barunya, pengklasifikasi fisik, melalui tantangan terbuka enam hari. Peserta mencoba mem-bypass semua langkah perlindungan keamanan Claude 3.5 dan akhirnya berhasil menerobos semua delapan tingkat keamanan, memicu diskusi mendalam tentang perlindungan keamanan AI. Meskipun penantang berhasil membuat terobosan, tidak ada "metode jailbreak" yang umum ditemukan, yang menunjukkan bahwa masih ada tantangan dalam perlindungan keamanan AI, tetapi itu tidak sepenuhnya tidak bisa dipecahkan.

Hanya dalam enam hari, peserta berhasil melewati semua langkah perlindungan keamanan dalam model intelijen buatan antropik (AI) Claude 3.5, sebuah terobosan yang membawa diskusi baru ke bidang perlindungan keamanan AI. Jan Leike, mantan anggota tim penyelarasan Openai dan sekarang bekerja untuk antropik, mengumumkan pada platform X bahwa seorang peserta berhasil memecahkan semua delapan tingkat keamanan. Upaya kolektif ini melibatkan sekitar 3.700 jam tes dan 300.000 pesan dari peserta.

Terlepas dari terobosan penantang yang sukses, Leike menekankan bahwa tidak ada yang dapat mengusulkan "metode jailbreak" yang umum untuk menyelesaikan semua tantangan keamanan sekaligus. Ini berarti bahwa terlepas dari terobosan, masih belum ada cara untuk menemukan cara universal untuk memotong semua perlindungan keamanan.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Tantangan dan peningkatan pengklasifikasi fisik

Ketika teknologi AI menjadi semakin kuat, bagaimana melindunginya dari manipulasi dan pelecehan, terutama ketika datang ke output yang berbahaya, telah menjadi masalah yang semakin penting. Antropik telah mengembangkan metode keamanan baru - pengklasifikasi konstitusi, khususnya untuk mencegah terjadinya jailbreak umum. Metode ini menggunakan aturan preset untuk menentukan apakah konten input dimungkinkan untuk memanipulasi model, sehingga mencegah respons berbahaya.

Untuk menguji efektivitas sistem ini, antropik merekrut 183 peserta selama periode dua bulan untuk mencoba menembus perlindungan keamanan model Claude 3.5. Peserta diminta untuk mencoba memotong mekanisme keamanan, menyebabkan Claude menjawab sepuluh "pertanyaan tabu". Meskipun menawarkan bonus $ 15.000 dan hampir 3.000 jam pengujian, tidak ada yang bisa memotong semua perlindungan keamanan.

Versi sebelumnya dari Classifier Konstitusi memiliki beberapa masalah, termasuk penandaan kesalahan permintaan yang tidak berbahaya sebagai permintaan berbahaya dan kebutuhan akan banyak kekuatan komputasi. Tetapi dengan perbaikan selanjutnya, masalah ini telah diselesaikan secara efektif. Data uji menunjukkan bahwa 86% upaya manipulasi dilewatkan dalam model Claude yang tidak terlindungi, sementara versi yang dilindungi mencegah lebih dari 95% upaya manipulasi, meskipun sistem masih membutuhkan daya komputasi yang tinggi.

Data pelatihan yang disintesis dan tantangan keamanan di masa depan

Sistem keamanan didasarkan pada data pelatihan sintetis, menggunakan aturan yang telah ditentukan untuk membangun "konstitusi" model yang menentukan input mana yang diizinkan dan mana yang dilarang. Klasifikasi yang dilatih melalui contoh -contoh sintetis ini dapat secara efektif mengidentifikasi input yang mencurigakan. Namun, para peneliti mengakui bahwa sistem ini tidak sempurna dan tidak dapat mengatasi semua bentuk serangan jailbreak universal, sehingga disarankan untuk menggunakannya dalam kombinasi dengan langkah -langkah keamanan lainnya.

Untuk lebih memperkuat verifikasi sistem, Anthropic merilis versi demonstrasi publik antara 3 dan 10 Februari 2025, mengundang para ahli keamanan untuk berpartisipasi dalam tantangan, dan hasilnya akan dibagikan kepada Anda melalui pembaruan berikutnya.

Kontes ini pada AI Security menunjukkan tantangan besar dan kompleksitas perlindungan model AI. Dengan kemajuan teknologi yang berkelanjutan, bagaimana meningkatkan fungsionalitas model sambil memastikan keamanan masih merupakan masalah penting yang perlu dipecahkan oleh industri AI.

Singkatnya, hasil tantangan keamanan ini tidak hanya mengungkapkan kekurangan perlindungan keamanan AI, tetapi juga menunjukkan upaya antropik dan kemajuan dalam meningkatkan keamanan AI. Di masa depan, keamanan AI masih perlu terus meningkat dan ditingkatkan untuk memenuhi tantangan yang terus berkembang.