Anthropicの最新の「Body Classifier」は、AIセキュリティ保護に新しいブレークスルーをもたらしました。この技術は、「普遍的な脱獄」攻撃に効果的に抵抗し、AIモデルが有害なコンテンツを生成するのを防ぐように設計されています。大規模なテストを通じて、183人の参加者は、高いボーナスと十分な時間のインセンティブの下でシステムのセキュリティ保護を完全にバイパスすることができず、「物理分類器」の強力な防御能力を完全に実証しました。この記事では、「物理的構成分類器」の作業原則、改善プロセス、将来の開発の方向性に関する詳細な議論を行います。
人工知能会社Anthropicは最近、言語モデルを悪意のある操作から保護することを目的とした「身体憲法分類器」と呼ばれる新しいセキュリティ方法の開発を発表しました。このテクノロジーは、「ユニバーサルジェイルブレイク」を特に目的としています。これは、AIモデルが有害なコンテンツを生成するのを防ぐために、すべてのセキュリティ対策を体系的にバイパスしようとする入力方法です。
この技術の有効性を検証するために、人類は大規模なテストを実施しました。同社は183人の参加者を募集して、2か月以内に防衛システムを突破しようとしました。参加者は、AIモデルClaude 3.5を取得して、特定の質問を入力して10の禁止された質問に答えるように求められました。最大15,000ドルのボーナスと約3,000時間のテスト時間を提供しているにもかかわらず、人類のセキュリティ対策を完全にバイパスすることはできませんでした。
課題から前進します
「身体憲法分類器」の人類の初期バージョンには、2つの主な問題がありました。1つは危険な要求として無害なリクエストを誤って判断することであり、もう1つは大量のコンピューティングリソースを要求することでした。改善後、新しい分類器は誤判断率を大幅に減らし、コンピューティング効率を最適化します。ただし、自動テストでは、改善されたシステムが脱獄の試みの95%以上を正常にブロックしましたが、コンピューティングパワーの23.7%が実行に必要であることが示されています。対照的に、保護されていないクロードモデルにより、脱獄試行の86%が合格します。
合成データに基づくトレーニング
「憲法分類器」の中核は、定義されたルール(「憲法」と呼ばれる)を使用して、許可されたものと禁止を区別することです。システムは、複数の言語とスタイルで合成トレーニングの例を生成することにより、疑わしい入力を特定するために分類器を訓練します。このアプローチは、システムの精度を向上させるだけでなく、多様な攻撃に対処する能力を向上させます。
著しい進歩にもかかわらず、人類の研究者は、システムが完全ではないことを認めています。あらゆる種類の普遍的な脱獄攻撃に対処できない可能性があり、将来新しい攻撃方法が出現する可能性があります。したがって、人類は、より包括的な保護を提供するために、他の安全対策と併せて「憲法分類器」を使用することを推奨しています。
パブリックテストと将来の見通し
システムの強度をさらにテストするために、人類は2025年2月3日から10日までの間に公開デモ版をリリースする予定で、セキュリティの専門家にそれをクラックしようと誘います。テスト結果は、後続の更新で発表されます。この動きは、技術の透明性に対する人類のコミットメントを実証するだけでなく、AIセキュリティの分野での研究に貴重なデータを提供します。
人類の「ボディ分類器」は、AIモデルのセキュリティ保護における重要な進歩を示しています。 AIテクノロジーの急速な発展に伴い、モデルの乱用を効果的に防止する方法が業界の注目の焦点となっています。 Anthropicの革新は、この課題に対する新しいソリューションを提供すると同時に、将来のAIセキュリティ研究の方向性を指摘しています。
Anthropicの「Body Classifier」は、AIセキュリティの分野の新しいベンチマークを設定し、公共のテストと継続的な改善の概念は学ぶ価値があります。将来、テクノロジーの継続的な開発とセキュリティの脅威の進化により、「物理分類器」の改善とアップグレードは、AIのセキュリティを確保する上でより重要な役割を果たします。