Peneliti mengembangkan metode serangan AI BEAST: melewati pagar pembatas LLM dalam satu menit

Penulis：Eve Cole Waktu Pembaruan：2025-01-05 17:48:01

Para peneliti di Universitas Maryland telah mengembangkan teknologi baru yang disebut BEAST yang dapat menyebabkan reaksi berbahaya dalam model bahasa besar (LLM) dalam waktu satu menit, dengan tingkat keberhasilan 89%. Penelitian ini menyoroti kerentanan keamanan LLM saat ini dan menimbulkan tantangan serius terhadap keamanan model AI. Teknologi BEAST menggunakan perangkat keras yang relatif umum (GPU Nvidia RTX A6000 dan memori 48 GB) untuk menyerang model komersial, termasuk GPT-4 OpenAI, tanpa mengakses seluruh konten model. Hal ini menunjukkan bahwa model yang tampaknya aman pun mungkin berisiko dieksploitasi untuk tujuan jahat.

Para peneliti di Universitas Maryland di Amerika Serikat telah berhasil mengembangkan teknologi BEAST, yang dapat memicu reaksi berbahaya dalam model bahasa besar dalam waktu satu menit, dengan tingkat keberhasilan mencapai 89%. Teknologi ini memanfaatkan GPU Nvidia RTX A6000 dengan memori 48 GB dan dapat menyerang model komersial, seperti GPT-4 OpenAI, tanpa mengakses seluruh model bahasa. Kecepatan dan efisiensi metode serangan BEAST menunjukkan kerentanan terhadap model AI dan menerobos pagar pembatas LLM.

Kemunculan teknologi BEAST telah memberikan peringatan di bidang keamanan AI, mengingatkan kita bahwa kita perlu lebih memperkuat penelitian keamanan pada model bahasa besar, mengembangkan mekanisme pertahanan yang lebih efektif untuk menghadapi potensi ancaman keamanan, dan memastikan pengembangan teknologi buatan yang sehat. teknologi intelijen. Di masa depan, teknologi pertahanan yang lebih kuat dan standar keamanan yang lebih ketat akan menjadi kunci pengembangan bidang AI.