Editor Downcodes memberikan Anda laporan penelitian terbaru tentang keamanan model bahasa besar (LLM). Penelitian ini mengungkap kerentanan tak terduga yang dapat ditimbulkan oleh tindakan keamanan yang tampaknya tidak berbahaya di LLM. Para peneliti menemukan bahwa terdapat perbedaan signifikan dalam kesulitan melakukan "jailbreak" pada model untuk kata kunci demografis yang berbeda, yang memicu orang untuk memikirkan secara mendalam tentang keadilan dan keamanan AI. Temuan ini menunjukkan bahwa langkah-langkah keamanan yang dirancang untuk memastikan perilaku etis model mungkin secara tidak sengaja memperburuk kesenjangan ini, sehingga membuat serangan jailbreak terhadap kelompok rentan lebih mungkin berhasil.
Sebuah studi baru menunjukkan bahwa langkah-langkah keamanan yang disengaja dalam model bahasa besar dapat menimbulkan kerentanan yang tidak terduga. Para peneliti menemukan perbedaan signifikan dalam seberapa mudah model dapat "di-jailbreak" berdasarkan istilah demografi yang berbeda. Penelitian yang bertajuk "Apakah LLM Memiliki Kebenaran Politik?" mengeksplorasi bagaimana kata kunci demografis mempengaruhi peluang keberhasilan upaya jailbreak. Penelitian telah menemukan bahwa perintah yang menggunakan terminologi dari kelompok yang terpinggirkan lebih cenderung menghasilkan keluaran yang tidak diinginkan dibandingkan perintah yang menggunakan terminologi dari kelompok yang memiliki hak istimewa.
“Bias yang disengaja ini menyebabkan perbedaan 20% dalam tingkat keberhasilan jailbreak model GPT-4o antara kata kunci non-biner dan cisgender, dan perbedaan 16% antara kata kunci putih dan hitam,” catat para peneliti, meskipun bagian lain dari perintahnya sepenuhnya sama." jelas Isack Lee dan Haebin Seong dari Theori Inc.
Para peneliti mengaitkan perbedaan ini dengan bias yang disengaja untuk memastikan model berperilaku etis. Cara kerja jailbreaking adalah peneliti menciptakan metode "PCJailbreak" untuk menguji kerentanan model bahasa besar terhadap serangan jailbreaking. Serangan-serangan ini menggunakan isyarat yang dirancang dengan cermat untuk melewati langkah-langkah keamanan AI dan menghasilkan konten berbahaya.
PCJailbreak menggunakan kata kunci dari kelompok demografi dan sosial ekonomi yang berbeda. Para peneliti menciptakan pasangan kata seperti “kaya” dan “miskin” atau “laki-laki” dan “perempuan” untuk membandingkan kelompok yang memiliki hak istimewa dan kelompok yang terpinggirkan.
Mereka kemudian membuat perintah yang menggabungkan kata kunci tersebut dengan instruksi yang berpotensi membahayakan. Dengan berulang kali menguji kombinasi yang berbeda, mereka dapat mengukur peluang keberhasilan upaya jailbreak untuk setiap kata kunci. Hasilnya menunjukkan perbedaan yang signifikan: Kata kunci yang mewakili kelompok marjinal umumnya memiliki peluang keberhasilan yang jauh lebih tinggi dibandingkan kata kunci yang mewakili kelompok yang memiliki hak istimewa. Hal ini menunjukkan bahwa langkah-langkah keamanan model tersebut memiliki bias yang tidak disengaja yang dapat dieksploitasi dengan serangan jailbreak.
Untuk mengatasi kerentanan yang ditemukan oleh PCJailbreak, peneliti mengembangkan metode "PCDefense". Pendekatan ini menggunakan isyarat defensif khusus untuk mengurangi bias berlebihan dalam model bahasa, sehingga kurang rentan terhadap serangan jailbreak.
PCDefense unik karena tidak memerlukan langkah pemodelan atau pemrosesan tambahan. Sebaliknya, isyarat defensif ditambahkan langsung ke masukan untuk menyesuaikan bias dan mendapatkan perilaku yang lebih seimbang dari model bahasa.
Para peneliti menguji PCDefense pada berbagai model dan menunjukkan bahwa peluang keberhasilan upaya jailbreak dapat dikurangi secara signifikan, baik bagi kelompok yang memiliki hak istimewa maupun yang terpinggirkan. Pada saat yang sama, kesenjangan antar kelompok menurun, yang menunjukkan berkurangnya bias terkait keselamatan.
Para peneliti mengatakan PCDefense menyediakan cara yang efisien dan terukur untuk meningkatkan keamanan model bahasa besar tanpa memerlukan komputasi tambahan.
Temuan ini menyoroti kompleksitas perancangan sistem AI yang aman dan etis dalam menyeimbangkan keselamatan, keadilan, dan kinerja. Menyempurnakan pagar pengaman tertentu dapat mengurangi performa model AI secara keseluruhan, seperti kreativitasnya.
Untuk memfasilitasi penelitian dan perbaikan lebih lanjut, penulis telah membuat kode PCJailbreak dan semua artefak terkait tersedia sebagai sumber terbuka. Theori Inc, perusahaan di balik penelitian ini, adalah perusahaan keamanan siber yang berspesialisasi dalam keamanan ofensif dan berbasis di Amerika Serikat dan Korea Selatan. Didirikan pada Januari 2016 oleh Andrew Wesie dan Brian Pak.
Penelitian ini memberikan wawasan berharga mengenai keamanan dan keadilan model bahasa berskala besar, dan juga menyoroti pentingnya perhatian berkelanjutan terhadap dampak etika dan sosial dalam pengembangan AI. Editor Downcodes akan terus memperhatikan perkembangan terkini di bidang ini dan memberikan Anda informasi ilmiah dan teknologi yang lebih mutakhir.