Tim keamanan AI Microsoft melakukan uji keamanan selama dua tahun pada lebih dari 100 produk AI generatif untuk mengidentifikasi kelemahan dan risiko etika. Hasil pengujian ini membalikkan beberapa persepsi tradisional tentang keamanan AI dan menekankan peran keahlian manusia yang tak tergantikan di bidang keamanan AI. Pengujian telah menemukan bahwa serangan yang paling efektif tidak selalu rumit secara teknis, melainkan metode "rekayasa cepat" yang sederhana, seperti menyembunyikan instruksi berbahaya dalam teks gambar untuk melewati mekanisme keamanan. Hal ini menunjukkan bahwa keamanan AI perlu mempertimbangkan sarana teknis dan pertimbangan humanistik.
Sejak tahun 2021, tim keamanan AI Microsoft telah menguji lebih dari 100 produk AI generatif untuk mencari kelemahan dan masalah etika. Temuan mereka menantang beberapa asumsi umum tentang keamanan AI dan menyoroti pentingnya keahlian manusia.
Ternyata serangan yang paling efektif tidak selalu merupakan serangan yang paling canggih. “Peretas sejati tidak menghitung gradien tetapi menggunakan rekayasa cepat,” catat sebuah penelitian yang dikutip dalam laporan Microsoft, yang membandingkan penelitian keamanan AI dengan praktik di dunia nyata. Dalam satu pengujian, tim berhasil melewati fitur keamanan pembuat gambar hanya dengan menyembunyikan instruksi berbahaya di dalam teks gambar—tidak perlu perhitungan rumit.
Sentuhan manusia tetap penting
Meskipun Microsoft telah mengembangkan PyRIT, alat sumber terbuka yang dapat mengotomatiskan pengujian keamanan, tim tersebut menekankan bahwa penilaian manusia tidak dapat digantikan. Hal ini menjadi jelas ketika mereka menguji bagaimana chatbot menangani situasi sensitif, seperti berbicara dengan seseorang yang mengalami tekanan emosional. Mengevaluasi skenario ini memerlukan keahlian psikologis dan pemahaman mendalam tentang potensi dampak kesehatan mental.
Tim juga mengandalkan wawasan manusia saat menyelidiki bias AI. Salah satu contohnya, mereka menguji bias gender dalam pembuat gambar dengan membuat gambar dari berbagai pekerjaan (tanpa menyebutkan gender secara spesifik).
Tantangan keamanan baru muncul
Integrasi kecerdasan buatan ke dalam aplikasi sehari-hari menciptakan kerentanan baru. Dalam satu pengujian, tim berhasil memanipulasi model bahasa untuk menciptakan skenario penipuan yang meyakinkan. Jika digabungkan dengan teknologi text-to-speech, hal ini akan menciptakan sistem yang dapat berinteraksi dengan orang-orang dengan cara yang sangat realistis.
Risiko tidak terbatas pada masalah khusus kecerdasan buatan. Tim menemukan kerentanan keamanan lama (SSRF) pada alat pemrosesan video kecerdasan buatan, yang menunjukkan bahwa sistem ini menghadapi tantangan keamanan lama dan baru.
Kebutuhan keamanan yang berkelanjutan
Studi ini berfokus secara khusus pada risiko “AI yang bertanggung jawab”, yaitu situasi di mana sistem AI dapat menghasilkan konten yang berbahaya atau dipertanyakan secara etika. Pertanyaan-pertanyaan ini sangat sulit untuk dijawab karena sering kali sangat bergantung pada konteks dan penafsiran pribadi.
Tim Microsoft menemukan bahwa paparan konten bermasalah yang tidak disengaja oleh pengguna biasa lebih mengkhawatirkan daripada serangan yang disengaja karena hal ini menunjukkan bahwa langkah-langkah keamanan tidak berfungsi sebagaimana mestinya selama penggunaan normal.
Temuan ini memperjelas bahwa keamanan AI bukanlah perbaikan yang bisa dilakukan satu kali saja. Microsoft merekomendasikan untuk terus menemukan dan memperbaiki kerentanan, diikuti dengan pengujian lebih lanjut. Hal ini perlu didukung oleh peraturan dan insentif keuangan, sehingga membuat serangan yang berhasil menjadi lebih mahal, saran mereka.
Tim peneliti mengatakan masih ada beberapa pertanyaan kunci yang perlu dijawab: Bagaimana kita mengidentifikasi dan mengendalikan kemampuan AI yang berpotensi berbahaya, seperti persuasi dan penipuan? Bagaimana kita bisa menyesuaikan pengujian keselamatan dengan bahasa dan budaya yang berbeda? membagikan ini dengan cara yang terstandarisasi?
Secara keseluruhan, penelitian Microsoft menekankan pentingnya terus meningkatkan langkah-langkah keamanan AI. Hal ini memerlukan kombinasi sarana teknis dan perhatian humanistik untuk secara efektif menangani tantangan keamanan AI dan mendorong pengembangan teknologi AI yang bertanggung jawab.