Baru-baru ini, para peneliti di Universitas Stanford dan Universitas Hong Kong menerbitkan sebuah makalah yang mengungkap kerentanan keamanan besar pada agen AI saat ini seperti Claude: mereka sangat rentan terhadap serangan pop-up. Penelitian telah menemukan bahwa jendela pop-up sederhana dapat secara signifikan mengurangi tingkat penyelesaian tugas agen AI, dan bahkan menyebabkan tugas gagal sepenuhnya. Ini telah menimbulkan kekhawatiran tentang masalah keamanan dalam aplikasi praktis agen AI, terutama ketika mereka diberikan lebih banyak otonomi.
Baru-baru ini, para peneliti di Stanford University dan University of Hong Kong telah menemukan bahwa agen AI saat ini (seperti Claude) lebih rentan terhadap pop-up daripada manusia, dan bahkan kinerja mereka telah turun secara signifikan ketika menghadapi pop-up sederhana.
Menurut penelitian, ketika agen AI menghadapi jendela pop-up yang dirancang di lingkungan eksperimental, tingkat keberhasilan serangan rata-rata mencapai 86%, dan mengurangi tingkat keberhasilan tugas sebesar 47%. Penemuan ini telah memicu kekhawatiran baru tentang keamanan agen AI, terutama ketika mereka diberi lebih banyak kemampuan untuk melakukan tugas secara mandiri.
Dalam penelitian ini, para ilmuwan merancang serangkaian pop-up permusuhan untuk menguji respon agen AI. Penelitian menunjukkan bahwa meskipun manusia dapat mengidentifikasi dan mengabaikan pop-up ini, agen AI sering tergoda bahkan untuk mengklik pop-up berbahaya ini, menyebabkan mereka gagal menyelesaikan tugas aslinya. Fenomena ini tidak hanya mempengaruhi kinerja agen AI, tetapi juga dapat membawa bahaya keselamatan dalam aplikasi kehidupan nyata.
Tim peneliti menggunakan dua platform uji, Osworld dan Visualwebarena, disuntikkan pop-up yang dirancang dan mengamati perilaku agen AI. Mereka menemukan bahwa semua model AI yang terlibat dalam tes rentan. Untuk mengevaluasi efek serangan, para peneliti mencatat frekuensi jendela pop-up klik agen dan penyelesaian tugasnya.
Studi ini juga mengeksplorasi dampak desain jendela pop-up pada tingkat keberhasilan serangan. Dengan menggunakan elemen yang menarik dan instruksi spesifik, para peneliti menemukan peningkatan yang signifikan dalam tingkat keberhasilan serangan. Meskipun mereka mencoba menolak serangan itu dengan mendorong agen AI untuk mengabaikan pop-up atau menambahkan logo iklan, hasilnya tidak ideal. Ini menunjukkan bahwa mekanisme pertahanan saat ini masih sangat rapuh terhadap agen AI.
Kesimpulan penelitian ini menyoroti perlunya mekanisme pertahanan yang lebih maju di bidang otomatisasi untuk meningkatkan ketahanan agen AI terhadap malware dan serangan menipu. Para peneliti merekomendasikan untuk meningkatkan keamanan agen AI melalui instruksi yang lebih rinci, meningkatkan kemampuan untuk mengidentifikasi konten jahat, dan memperkenalkan pengawasan manusia.
kertas:
https://arxiv.org/abs/2411.02391
GitHub:
https://github.com/salt-nlp/popupattack
Poin -Poin Kunci:
Tingkat keberhasilan serangan agen AI ketika menghadapi pop-up adalah setinggi 86%, yang lebih rendah dari manusia.
Penelitian telah menemukan bahwa langkah -langkah pertahanan saat ini hampir tidak efektif untuk agen AI dan keamanan perlu ditingkatkan segera.
Penelitian ini mengusulkan saran pertahanan seperti meningkatkan kemampuan agen untuk mengidentifikasi konten jahat dan pengawasan manusia.
Hasil penelitian menimbulkan tantangan besar bagi keamanan agen AI dan juga menunjukkan arah untuk penelitian keamanan AI di masa depan, yaitu, perlu untuk mengembangkan mekanisme pertahanan yang lebih efektif untuk melindungi agen AI dari serangan seperti pop-up berbahaya dan memastikan itu beroperasi dengan aman dan andal. Penelitian tindak lanjut harus fokus pada bagaimana meningkatkan kemampuan agen AI untuk mengidentifikasi konten berbahaya dan bagaimana secara efektif menggabungkan pengawasan manual.