この記事では、AnthropicのAIモデルClaude 3.5セキュリティ保護システムのテスト結果について説明します。研究者たちは、6日間のオープンチャレンジを通じて、新しい安全メカニズムである体格分類器の有効性をテストしました。参加者は、Claude 3.5のすべてのセキュリティ保護対策をバイパスしようとし、最終的に8つのセキュリティレベルすべてを成功裏に突破し、AIセキュリティ保護に関する詳細な議論を引き起こしました。チャレンジャーはブレークスルーを成功裏に行いましたが、一般的な「ジェイルブレイク方法」は発見されていません。これは、AIセキュリティ保護に依然として課題があることを示していますが、完全に壊れないことではありません。
わずか6日間で、参加者は人類人工知能(AI)モデルのすべてのセキュリティ保護対策を首尾よくバイパスし、AIセキュリティ保護の分野に新しい議論をもたらすブレークスルーです。元Openaiアラインメントチームのメンバーであり、現在人類で働いていたJan Leikeは、参加者が8つのセキュリティレベルすべてを首尾よく壊したことをXプラットフォームで発表しました。この集合的な努力には、参加者からの約3,700時間のテストと300,000のメッセージが含まれていました。
チャレンジャーのブレークスルーが成功したにもかかわらず、Leikeは、すべてのセキュリティの課題を一度に解決するために、共通の「脱獄方法」を提案することができなかったと強調しました。これは、ブレークスルーにもかかわらず、すべてのセキュリティ保護をバイパスする普遍的な方法を見つける方法がまだないことを意味します。
物理分類器の課題と改善
AIテクノロジーがますます強力になるにつれて、特に有害な出力に関しては、操作や虐待からそれらを保護する方法は、ますます重要な問題になっています。人類は、特に一般的な脱獄の発生を防ぐために、憲法分類器である新しいセキュリティ方法を開発しました。この方法では、プリセットルールを使用して、入力コンテンツがモデルを操作できるかどうかを判断し、それにより危険な応答を防ぎます。
このシステムの有効性をテストするために、人類は2か月間に183人の参加者を募集して、Claude 3.5モデルのセキュリティ保護を突破しようとしました。参加者は、セキュリティメカニズムをバイパスしようとするように求められ、クロードは10個の「タブーの質問」に答えました。 15,000ドルのボーナスと3,000時間近くのテストを提供しているにもかかわらず、すべてのセキュリティ保護をバイパスすることはできませんでした。
憲法分類器の以前のバージョンには、危険な要求としての無害な要求のエラーマークや、多くのコンピューティングパワーの必要性など、いくつかの問題がありました。しかし、その後の改善により、これらの問題は効果的に解決されました。テストデータは、保護されていないクロードモデルで操作の試みの86%が渡されたことを示していますが、保護されたバージョンは操作の試みの95%以上を妨げましたが、システムには高いコンピューティングパワーが必要です。
合成されたトレーニングデータと将来のセキュリティの課題
セキュリティシステムは、事前定義されたルールを使用して、どの入力が許可され、どの入力が禁止されているかを決定するモデルの「憲法」を構築する合成トレーニングデータに基づいています。これらの合成例を通じて訓練された分類器は、疑わしい入力を効果的に識別できます。ただし、研究者は、このシステムは完璧ではなく、あらゆる形態の普遍的な脱獄攻撃に対処できないことを認めているため、他のセキュリティ対策と組み合わせて使用することをお勧めします。
システムの検証をさらに強化するために、Anthropicは2025年2月3日から10日までの間に公開デモ版をリリースし、セキュリティの専門家にチャレンジに参加するよう招待し、結果はその後の更新を通じてあなたと共有されます。
AIセキュリティに関するこのコンテストは、AIモデル保護の大きな課題と複雑さを示しています。テクノロジーの継続的な進歩により、モデルの機能を改善しながらセキュリティを確保する方法が、AI業界が緊急に解決する必要がある重要な問題であることを保証する方法です。
要するに、このセキュリティチャレンジの結果は、AIセキュリティ保護の欠点を明らかにするだけでなく、人類の努力とAIセキュリティの改善における進歩を示しています。将来的には、AIセキュリティを継続的に改善および改善する必要があります。