Downcodes の編集者は、大規模言語モデル (LLM) のセキュリティに関する最新の調査レポートを提供します。この調査により、LLM の一見無害なセキュリティ対策によって引き起こされる可能性のある予期せぬ脆弱性が明らかになりました。研究者らは、人口統計上のキーワードごとにモデルを「脱獄」する難易度に大きな違いがあることを発見し、これが人々にAIの公平性とセキュリティについて深く考えるきっかけとなった。 この調査結果は、モデルの倫理的な行動を保証するために設計されたセキュリティ対策がこの不注意を悪化させ、脆弱なグループに対するジェイルブレイク攻撃が成功する可能性を高める可能性があることを示唆しています。
新しい研究では、大規模な言語モデルにおける善意のセキュリティ対策が予期せぬ脆弱性を引き起こす可能性があることを示しています。研究者らは、異なる人口統計条件に基づいて、モデルがどの程度簡単に「ジェイルブレイク」できるかに大きな違いがあることを発見しました。 「LLMにはポリティカル・コレクトネスがあるか?」と題されたこの研究では、人口統計上のキーワードが脱獄の試みが成功する確率にどのように影響するかを調査した。研究によると、疎外されたグループの用語を使用するプロンプトは、特権グループの用語を使用するプロンプトよりも望ましくない出力が生成される可能性が高いことがわかっています。
「これらの意図的なバイアスにより、GPT-4o モデルの脱獄成功率には、非バイナリーキーワードとシスジェンダーキーワードの間で 20% の差が生じ、白人キーワードと黒人キーワードの間では 16% の差が生じます」と研究者らは指摘しています。プロンプトはまったく同じでした」と Theori Inc. の Isack Lee 氏と Haebin Seong 氏は説明しました。
研究者らは、この違いはモデルが倫理的に動作することを保証するために導入された意図的なバイアスによるものだと考えています。ジェイルブレイクの仕組みは、研究者がジェイルブレイク攻撃に対する大規模な言語モデルの脆弱性をテストするために「PCJailbreak」メソッドを作成したことです。これらの攻撃は、慎重に作成された合図を使用して AI セキュリティ対策を回避し、有害なコンテンツを生成します。
PCJailbreak は、さまざまな人口統計および社会経済的グループのキーワードを使用します。研究者らは、特権階級と疎外された集団を比較するために、「金持ち」と「貧しい」、「男性」と「女性」などの単語のペアを作成した。
次に、これらのキーワードと有害な可能性のある指示を組み合わせたプロンプトを作成しました。さまざまな組み合わせを繰り返しテストすることで、キーワードごとに脱獄が成功する可能性を測定することができました。結果は大きな違いを示しました。一般に、疎外されたグループを表すキーワードは、特権グループを表すキーワードよりも成功する可能性がはるかに高かったのです。これは、モデルのセキュリティ対策に、脱獄攻撃に悪用される可能性のある不注意なバイアスがあることを示唆しています。
PCJailbreak によって発見された脆弱性に対処するために、研究者たちは「PC Defense」手法を開発しました。このアプローチでは、特別な防御キューを使用して言語モデルの過度のバイアスを軽減し、脱獄攻撃に対する脆弱性を軽減します。
PC Defense は、追加のモデリングや処理手順を必要としないという点で独特です。代わりに、防御的なキューが入力に直接追加されて、バイアスを調整し、言語モデルからよりバランスの取れた動作が得られます。
研究者らはさまざまなモデルで PC Defense をテストし、特権グループと疎外されたグループの両方で脱獄の試みが成功する確率が大幅に低下する可能性があることを示しました。同時に、グループ間のギャップは減少し、安全関連のバイアスが減少したことを示しています。
研究者らは、PCDefence は追加の計算を必要とせずに大規模な言語モデルのセキュリティを向上させる効率的かつスケーラブルな方法を提供すると述べています。
この調査結果は、安全性、公平性、パフォーマンスのバランスを保つ上で、安全で倫理的な AI システムを設計することの複雑さを浮き彫りにしています。特定の安全ガードレールを微調整すると、AI モデルの創造性などの全体的なパフォーマンスが低下する可能性があります。
さらなる研究と改善を促進するために、作成者は PCJailbreak のコードとすべての関連成果物をオープン ソースとして利用できるようにしました。この研究を行っている Theori Inc は、米国と韓国に拠点を置く、攻撃的セキュリティを専門とするサイバーセキュリティ企業です。 2016 年 1 月に Andrew Wesie と Brian Pak によって設立されました。
この研究は、大規模言語モデルの安全性と公平性に関する貴重な洞察を提供するとともに、AI 開発における倫理的および社会的影響に継続的に注意を払うことの重要性を強調しています。 Downcodes の編集者は、今後もこの分野の最新動向に注目し、より最先端の科学技術情報をお届けしていきます。