Peluncuran Antropik "Klasifikasi Konstitusi Tubuh": Berhasil memblokir 95% upaya model untuk melakukan jailbreak - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-02-16 07:48:01

"Body Classifier" Antropik terbaru telah membawa terobosan baru ke perlindungan keamanan AI. Teknologi ini dirancang untuk secara efektif menolak serangan "jailbreak universal" dan mencegah model AI menghasilkan konten berbahaya. Melalui pengujian skala besar, 183 peserta masih tidak dapat sepenuhnya melewati perlindungan keamanan sistem di bawah insentif bonus tinggi dan waktu yang cukup, yang sepenuhnya menunjukkan kemampuan pertahanan yang kuat dari "pengklasifikasi fisik". Artikel ini akan melakukan diskusi mendalam tentang prinsip kerja, proses perbaikan dan arah pengembangan "pengklasifikasi Konstitusi Fisik" di masa depan.

Perusahaan Intelijen Buatan Antropik baru -baru ini mengumumkan pengembangan metode keamanan baru yang disebut "Classifier Konstitusi Tubuh" yang bertujuan melindungi model bahasa dari manipulasi jahat. Teknologi ini secara khusus ditujukan untuk "jailbreak universal" - cara masukan yang berupaya secara sistematis melewati semua langkah keamanan untuk mencegah model AI menghasilkan konten berbahaya.

Untuk memverifikasi efektivitas teknologi ini, antropik melakukan tes skala besar. Perusahaan merekrut 183 peserta untuk mencoba menerobos sistem pertahanannya dalam waktu dua bulan. Peserta diminta untuk mencoba mendapatkan model AI Claude 3.5 untuk menjawab sepuluh pertanyaan terlarang dengan memasukkan pertanyaan tertentu. Meskipun menawarkan bonus hingga $ 15.000 dan sekitar 3.000 jam waktu pengujian, tidak ada peserta yang dapat sepenuhnya melewati langkah -langkah keamanan antropik.

Claude2，Anthropic，人工智能，聊天机器人克劳德

Maju dari tantangan

Versi awal "Classifier Konstitusi Tubuh" Anthropic memiliki dua masalah utama: satu adalah salah menilai terlalu banyak permintaan yang tidak berbahaya sebagai permintaan berbahaya, dan yang lainnya adalah membutuhkan sejumlah besar sumber daya komputasi. Setelah perbaikan, classifier baru secara signifikan mengurangi tingkat kesalahan penilaian dan mengoptimalkan efisiensi komputasi. Namun, pengujian otomatis menunjukkan bahwa sementara sistem yang ditingkatkan berhasil memblokir lebih dari 95% upaya jailbreak, tambahan 23,7% daya komputasi diperlukan. Sebaliknya, model Claude yang tidak terlindungi memungkinkan 86% upaya jailbreak untuk lulus.

Pelatihan berdasarkan data sintetis

Inti dari "pengklasifikasi konstitusi" adalah menggunakan aturan yang telah ditentukan sebelumnya (disebut "Konstitusi") untuk membedakan antara yang diizinkan dan dilarang. Sistem ini melatih classifier untuk mengidentifikasi input yang mencurigakan dengan menghasilkan contoh pelatihan sintetis dalam berbagai bahasa dan gaya. Pendekatan ini tidak hanya meningkatkan keakuratan sistem, tetapi juga meningkatkan kemampuannya untuk menangani beragam serangan.

Meskipun ada kemajuan yang signifikan, para peneliti antropik mengakui bahwa sistem ini tidak sempurna. Mungkin tidak dapat mengatasi semua jenis serangan jailbreak universal, dan metode serangan baru mungkin muncul di masa depan. Oleh karena itu, antropik merekomendasikan penggunaan "classifier konstitusi" bersamaan dengan langkah -langkah keselamatan lainnya untuk memberikan perlindungan yang lebih komprehensif.

Pengujian publik dan prospek masa depan

Untuk menguji lebih lanjut kekuatan sistem, antropik berencana untuk merilis versi demo publik antara 3 dan 10 Februari 2025, mengundang para ahli keamanan untuk mencoba memecahkannya. Hasil tes akan diumumkan dalam pembaruan berikutnya. Langkah ini tidak hanya menunjukkan komitmen antropik terhadap transparansi teknologi, tetapi juga memberikan data yang berharga untuk penelitian di bidang keamanan AI.

"Body Classifier" Anthropic menandai kemajuan penting dalam perlindungan keamanan model AI. Dengan perkembangan yang cepat dari teknologi AI, bagaimana secara efektif mencegah penyalahgunaan model telah menjadi fokus perhatian industri. Inovasi Anthropic memberikan solusi baru untuk tantangan ini, sambil juga menunjukkan arah untuk penelitian keamanan AI di masa depan.

"Body Classifier" Anthropic menetapkan tolok ukur baru untuk bidang keamanan AI, dan konsep pengujian publik dan peningkatan berkelanjutan layak dipelajari. Di masa depan, dengan pengembangan teknologi yang berkelanjutan dan evolusi ancaman keamanan, peningkatan dan peningkatan "pengklasifikasi fisik" akan memainkan peran yang lebih penting dalam memastikan keamanan AI.