Microsoft AI Security 팀은 약한 링크와 도덕적 위험을 발견하기 위해 100 개 이상의 AI 제품에 대한 2 년의 안전 테스트를 수행했습니다. 시험 결과는 AI 보안 분야에서 인간 전문 지식의 대체 할 수없는 역할을 강조하여 AI 보안에 대한 전통적인 인식을 전복시켰다. 테스트에 따르면 가장 효과적인 공격은 기술적 수준에서 항상 복잡한 공격이 아니라 예를 들어 이미지 텍스트의 악의적 인 지침을 숨기는 것이 보안 메커니즘을 우회 할 수 있습니다. 이는 AI 보안이 기술적 수단과 인본주의 적 고려 사항을 고려해야한다는 것을 보여줍니다.
2021 년 이래로 Microsoft의 AI 보안 팀은 약한 링크와 도덕적 문제를 찾기 위해 100 가지 이상의 AI 제품을 테스트했습니다. 그들의 발견은 AI 안보에 대한 몇 가지 공통된 가정에 도전했으며 인간 전문 지식의 지속적인 중요성을 강조했습니다.
가장 효과적인 공격이 항상 가장 복잡한 공격은 아닙니다. Microsoft 보고서에서 인용 한 연구에 따르면 "실제 해커는 그라디언트를 계산하지는 않지만 연구는 인공 지능 보안 연구를 실제 세계의 실습과 비교했습니다. 테스트에서 팀은 이미지 텍스트에 유해한 지침을 숨겨서 이미지 생성기의 보안 기능을 성공적으로 우회했습니다.
인간의 취향은 여전히 중요합니다
Microsoft는 안전 테스트를 자동으로 테스트 할 수있는 오픈 소스 도구 인 Pyrit을 개발했지만 팀은 인간의 판단을 대체 할 수 없다고 강조했습니다. 이것은 채팅 로봇이 민감한 상황 (감정적으로 어려움을 겪는 사람들과 대화하는 등)을 어떻게 처리하는지 테스트 할 때 특히 분명해집니다. 이러한 시나리오를 평가하려면 심리적 지식과 잠재적 정신 건강의 영향에 대한 깊은 이해가 필요합니다.
인공 지능 편견을 조사 할 때 팀은 인간의 통찰력에도 의존했습니다. 예를 들어, 그들은 다른 직업 (성별 없음)의 그림을 만들어 이미지 생성기의 성 편견을 확인합니다.
새로운 보안 문제가 나타납니다
인공 지능과 일일 응용의 융합은 새로운 허점을 가져옵니다. 테스트에서 팀은 언어 모델을 성공적으로 조작하고 설득력있는 사기 현장을 만들었습니다. 텍스트 전환 기술과 결합하면 위험한 방식으로 사람들과 상호 작용할 수있는 시스템을 만듭니다.
위험은 인공 지능의 고유 한 문제에만 국한되지 않습니다. 이 팀은 인공 지능 비디오 처리 도구에서 전통적인 보안 취약점 (SSRF)을 발견하여 이러한 시스템이 새롭고 오래된 보안 문제에 직면 함을 나타냅니다.
지속적인 보안 요구
이 연구는 "책임있는 인공 지능"의 위험에 특별한 관심을 기울입니다. 즉, 인공 지능 시스템은 유해하거나 도덕적 문제의 내용을 생성 할 수 있습니다. 이러한 문제는 일반적으로 배경과 개인 해석에 의존하기 때문에 해결하기가 특히 어렵습니다.
Microsoft 팀은 일반 사용자가 의도적 인 공격보다 문제의 문제를 노출 할 의도가 없다는 것을 발견했습니다. 이는 보안 조치가 정상 사용 프로세스 중에 예상대로 플레이하지 않았 음을 보여주기 때문입니다.
연구 결과는 인공 지능 보안이 한 번에 해결되지 않았 음을 분명히 보여줍니다. Microsoft는 허점을 계속 찾고 수리 한 다음 더 많은 테스트를 수행 할 것을 권장합니다. 그들은 성공적인 공격을 더 비싸기 위해 규정과 재정적 인센티브의 지원이 필요하다고 제안했다.
연구팀은 여전히 해결해야 할 몇 가지 주요 문제가 있다고 밝혔다. 우리는 서빙 및 속임수와 같은 잠재적 인 위험으로 인공 지능 기능을 어떻게 인식하고 제어 할 수 있습니까? 우리는 어떻게 표준화 된 방식으로 공유 할 수 있습니까?
대체로 Microsoft의 연구는 AI 보안 문제에 효과적으로 대응하고 AI 기술의 책임있는 개발을 촉진하기 위해 기술적 수단과 인본주의 관리를 지속적으로 개선하는 것의 중요성을 강조합니다.