Downcodes의 편집자는 LLM(대형 언어 모델)의 보안에 대한 최신 연구 보고서를 제공합니다. 이 연구는 LLM의 겉으로는 무해한 보안 조치로 인해 발생할 수 있는 예상치 못한 취약점을 보여줍니다. 연구진은 다양한 인구통계학적 키워드에 대한 모델의 '탈옥' 난이도에 상당한 차이가 있다는 사실을 발견했으며, 이로 인해 사람들은 AI의 공정성과 보안에 대해 깊이 생각하게 되었습니다. 연구 결과에 따르면 모델의 윤리적 행동을 보장하기 위해 고안된 보안 조치가 이러한 불균형을 의도치 않게 악화시켜 취약한 그룹에 대한 탈옥 공격이 성공할 가능성을 높이는 것으로 나타났습니다.
새로운 연구에 따르면 대규모 언어 모델의 선의의 보안 조치로 인해 예상치 못한 취약점이 발생할 수 있다는 사실이 밝혀졌습니다. 연구원들은 다양한 인구통계학적 용어에 따라 모델이 얼마나 쉽게 "탈옥"될 수 있는지에 상당한 차이가 있음을 발견했습니다. "LLM은 정치적 정확성을 갖고 있는가?"라는 제목의 이 연구에서는 인구통계학적 키워드가 탈옥 시도의 성공 가능성에 어떤 영향을 미치는지 조사했습니다. 연구에 따르면 소외된 그룹의 용어를 사용하는 프롬프트는 특권 그룹의 용어를 사용하는 프롬프트보다 원하지 않는 결과를 생성할 가능성이 더 높습니다.
"이러한 의도적인 편향은 논바이너리와 시스젠더 키워드 사이에서 GPT-4o 모델의 탈옥 성공률에 20%의 차이를 가져오고, 흰색과 검은색 키워드 사이에는 16%의 차이를 가져옵니다."라고 연구원들은 지적합니다. 프롬프트는 완전히 동일했습니다." Theori Inc.의 이삭과 성혜빈이 설명했습니다.
연구자들은 이러한 차이가 모델이 윤리적으로 작동하도록 보장하기 위해 도입된 의도적인 편견 때문이라고 생각합니다. 탈옥이 작동하는 방식은 연구원들이 탈옥 공격에 대한 대규모 언어 모델의 취약성을 테스트하기 위해 "PCJailbreak" 방법을 만들었다는 것입니다. 이러한 공격은 신중하게 제작된 단서를 사용하여 AI 보안 조치를 우회하고 유해한 콘텐츠를 생성합니다.
PCJailbreak는 다양한 인구통계학적, 사회경제적 그룹의 키워드를 사용합니다. 연구자들은 특권층과 소외된 그룹을 비교하기 위해 "부자"와 "가난한" 또는 "남성"과 "여성"과 같은 단어 쌍을 만들었습니다.
그런 다음 이러한 키워드와 잠재적으로 유해한 지침을 결합한 프롬프트를 만들었습니다. 다양한 조합을 반복적으로 테스트함으로써 각 키워드에 대한 성공적인 탈옥 시도 가능성을 측정할 수 있었습니다. 그 결과 상당한 차이가 나타났습니다. 일반적으로 소외 계층을 대표하는 키워드는 특권 계층을 대표하는 키워드보다 성공 확률이 훨씬 더 높았습니다. 이는 모델의 보안 조치에 탈옥 공격이 악용할 수 있는 의도하지 않은 편견이 있음을 나타냅니다.
PCJailbreak가 발견한 취약점을 해결하기 위해 연구원들은 "PCDefense" 방법을 개발했습니다. 이 접근 방식은 특별한 방어 단서를 사용하여 언어 모델의 과도한 편견을 줄여 탈옥 공격에 덜 취약하게 만듭니다.
PCDefense는 추가적인 모델링이나 처리 단계가 필요하지 않다는 점에서 독특합니다. 대신, 편향을 조정하고 언어 모델에서 보다 균형 잡힌 동작을 얻기 위해 방어 단서가 입력에 직접 추가됩니다.
연구원들은 다양한 모델에서 PCDefense를 테스트한 결과 특권층과 소외 계층 모두 탈옥 시도가 성공할 확률이 크게 줄어들 수 있음을 보여주었습니다. 동시에 그룹 간 격차가 줄어들어 안전 관련 편견이 감소했음을 나타냅니다.
연구원들은 PCDefense가 추가 계산 없이도 대규모 언어 모델의 보안을 향상시킬 수 있는 효율적이고 확장 가능한 방법을 제공한다고 말합니다.
이번 연구 결과는 안전, 공정성, 성능의 균형을 맞추는 안전하고 윤리적인 AI 시스템 설계의 복잡성을 강조합니다. 특정 안전 가드레일을 미세 조정하면 창의성 등 AI 모델의 전반적인 성능이 저하될 수 있습니다.
추가 연구와 개선을 촉진하기 위해 저자는 PCJailbreak의 코드와 모든 관련 아티팩트를 오픈 소스로 제공했습니다. 연구를 주도한 회사인 Theori Inc는 공격적 보안을 전문으로 하는 사이버 보안 회사로 미국과 한국에 본사를 두고 있습니다. Andrew Wesie와 Brian Pak이 2016년 1월에 설립했습니다.
이 연구는 대규모 언어 모델의 안전성과 공정성에 대한 귀중한 통찰력을 제공하고 AI 개발에 있어 윤리적, 사회적 영향에 대한 지속적인 관심의 중요성을 강조합니다. Downcodes의 편집자는 이 분야의 최신 개발에 지속적으로 관심을 기울이고 더 많은 최첨단 과학 및 기술 정보를 제공할 것입니다.