メリーランド大学の研究者らは、大規模言語モデル (LLM) で有害な反応を 89% の成功率で 1 分以内に誘発できる BEAST と呼ばれる新技術を開発しました。この研究は、現在の LLM のセキュリティ脆弱性を浮き彫りにし、AI モデルのセキュリティに深刻な課題をもたらしています。 BEAST テクノロジーは、比較的一般的なハードウェア (Nvidia RTX A6000 GPU と 48 GB のメモリ) を利用して、モデルのコンテンツ全体にアクセスすることなく、OpenAI の GPT-4 を含む商用モデルを攻撃します。これは、一見安全なモデルであっても、悪意のある目的に悪用される危険性があることを示しています。
米国のメリーランド大学の研究者は、大規模な言語モデルで有害な反応を 1 分以内に引き起こすことができる BEAST テクノロジーの開発に成功し、89% もの高い成功率を達成しました。このテクノロジーは、48 GB のメモリを備えた Nvidia RTX A6000 GPU を利用しており、言語モデル全体にアクセスすることなく、OpenAI の GPT-4 などの商用モデルを攻撃できます。 BEAST 攻撃手法の速度と効率性は、AI モデルに対する脆弱性を実証し、LLM のガードレールを突破します。
BEAST テクノロジーの出現は、AI セキュリティの分野に警鐘を鳴らし、大規模な言語モデルに関するセキュリティ研究をさらに強化し、潜在的なセキュリティ脅威に対処するためのより効果的な防御メカニズムを開発し、人工知能の健全な発展を確保する必要があることを思い出させました。インテリジェンス技術。 将来的には、より強力な防衛技術とより厳格なセキュリティ基準がAI分野の発展の鍵となります。