연구원, AI 공격 방식 BEAST 개발 : 1분 만에 LLM 가드레일 우회

저자：Eve Cole 업데이트 시간：2025-01-05 17:48:01

메릴랜드대 연구진이 1분 안에 LLM(대형언어모델)에서 유해한 반응을 유도할 수 있는 BEAST라는 신기술을 개발해 성공률이 89%에 달했다. 이 연구는 현재 LLM의 보안 취약성을 강조하고 AI 모델의 보안에 심각한 문제를 제기합니다. BEAST 기술은 비교적 일반적인 하드웨어(Nvidia RTX A6000 GPU 및 48GB 메모리)를 활용하여 모델의 전체 콘텐츠에 액세스하지 않고 OpenAI의 GPT-4를 포함한 상용 모델을 공격합니다. 이는 겉으로는 안전해 보이는 모델이라도 악의적인 목적으로 악용될 위험이 있음을 보여줍니다.

미국 메릴랜드대학교 연구진이 대규모 언어 모델에서 1분 안에 유해한 반응을 유발할 수 있는 BEAST 기술 개발에 성공해 무려 89%의 성공률을 기록했다. 이 기술은 48GB 메모리를 갖춘 Nvidia RTX A6000 GPU를 활용하며 전체 언어 모델에 액세스하지 않고도 OpenAI의 GPT-4와 같은 상용 모델을 공격할 수 있습니다. BEAST 공격 방법의 속도와 효율성은 AI 모델의 취약성을 입증하며 LLM의 가드레일을 돌파합니다.

BEAST 기술의 출현은 AI 보안 분야에 경종을 울리며 대규모 언어 모델에 대한 보안 연구를 더욱 강화하고 잠재적인 보안 위협에 대처하기 위한 보다 효과적인 방어 메커니즘을 개발하며 인공 지능의 건전한 발전을 보장해야 함을 상기시켜줍니다. 지능 기술. 앞으로는 더욱 강력한 국방기술과 더욱 엄격해진 보안기준이 AI 분야 발전의 핵심이 될 것이다.