Microsoft の AI セキュリティ チームは、100 を超える生成 AI 製品に対して 2 年間のセキュリティ テストを実施し、弱点と倫理的リスクを特定しました。このテスト結果は、AI セキュリティに関する従来の認識を一部覆し、AI セキュリティ分野における人間の専門知識のかけがえのない役割を強調しました。テストの結果、最も効果的な攻撃は、必ずしも技術的に複雑なわけではなく、画像テキストに悪意のある指示を隠してセキュリティ メカニズムを回避するなど、単純な「クイック エンジニアリング」手法であることが判明しました。 これは、AI のセキュリティには技術的手段と人道的配慮の両方を考慮する必要があることを示しています。
2021 年以来、Microsoft の AI セキュリティ チームは 100 以上の生成 AI 製品をテストして、弱点や倫理的問題を探してきました。彼らの調査結果は、AI の安全性に関する一般的な前提に疑問を投げかけ、人間の専門知識の継続的な重要性を浮き彫りにしました。
最も効果的な攻撃が、必ずしも最も高度な攻撃であるとは限らないことがわかりました。 「本物のハッカーは勾配を計算するのではなく、ラピッドエンジニアリングを使用する」と、Microsoft のレポートで引用されている研究では、AI セキュリティ研究と現実世界の実践を比較していると述べられています。あるテストでは、チームは画像のテキスト内に有害な命令を隠すだけで画像ジェネレーターのセキュリティ機能を回避することに成功しました。複雑な計算は必要ありません。
やはり人間味は大切ですね
Microsoft はセキュリティ テストを自動化できるオープン ソース ツールである PyRIT を開発しましたが、チームは人間の判断には代えられないと強調しています。このことは、感情的に苦しんでいる人と話すなど、デリケートな状況にチャットボットがどのように対処するかをテストしたときに特に明らかになりました。これらのシナリオを評価するには、心理学の専門知識と潜在的なメンタルヘルスへの影響についての深い理解の両方が必要です。
チームは、AI のバイアスを調査する際にも人間の洞察力に頼っていました。一例では、(性別を指定せずに)さまざまな職業の画像を作成することで、画像ジェネレーターにおける性別の偏りを調査しました。
新たなセキュリティ課題の出現
人工知能を日常のアプリケーションに統合すると、新たな脆弱性が生じます。あるテストでは、チームは言語モデルを操作して説得力のある詐欺シナリオを作成することに成功しました。テキスト読み上げ技術と組み合わせると、危険なほど現実的な方法で人々と対話できるシステムが作成されます。
リスクは人工知能に特有の問題に限定されません。チームは、人工知能ビデオ処理ツールにレガシー セキュリティ脆弱性 (SSRF) を発見し、これらのシステムが古くて新しいセキュリティ課題に直面していることを実証しました。
継続的なセキュリティのニーズ
この研究は、「責任ある AI」リスク、つまり AI システムが有害なコンテンツや倫理的に問題のあるコンテンツを生成する可能性のある状況に特に焦点を当てています。これらの質問は、文脈や個人的な解釈に大きく依存することが多いため、対処することが特に困難です。
Microsoft チームは、通常の使用中にセキュリティ対策が期待どおりに機能していないことを示唆しているため、意図的な攻撃よりも一般ユーザーが意図せずに問題のあるコンテンツにさらされることの方が懸念されることを発見しました。
この調査結果は、AI の安全性が一度で解決できるものではないことを明らかにしています。 Microsoft では、脆弱性の発見と修正を継続し、その後さらにテストを行うことをお勧めします。これには規制や金銭的インセンティブによる裏付けが必要で、攻撃の成功にはより高価なものがかかるだろうと彼らは示唆した。
研究チームは、まだ解決すべき重要な疑問がいくつかあると述べている: 説得や欺瞞など、潜在的に危険な AI 機能をどのように特定して制御するのか 安全性テストをさまざまな言語や文化にどのように適応させるのかこれを標準化された方法で共有しますか?
全体として、Microsoft の調査は、AI セキュリティの課題に効果的に対処し、AI テクノロジーの責任ある開発を促進するには、技術的手段と人道的配慮の組み合わせが必要であり、AI セキュリティ対策を継続的に改善することの重要性を強調しています。