最近、Google Brain の共同創設者 Andrew Ng は、極端な指示に直面したときの ChatGPT の応答をテストすることを目的とした興味深い実験を実施しました。彼は、ChatGPT に、世界的な熱核戦争と二酸化炭素排出削減という 2 つの正反対のタスクを実行させ、安全保障と倫理的境界を探求しようとしました。実験結果では、ChatGPT がうまく「なりすまし」られなかったことが示され、人工知能のセキュリティについてさらに考えるきっかけとなりました。
Google Brain の共同創設者である Andrew Ng 氏は最近、ChatGPT が致命的なタスクを実行できるかどうかをテストするために実験を実施しました。同氏は、GPT-4に地球規模の熱核戦争ミッションを実行させ、二酸化炭素排出レベルを削減させようとする実験プロセスについて説明したが、最終的にはChatGPTを騙すことはできなかった。同氏は、AIの危険性を心配するのは非現実的だと述べた。
Andrew Ng の実験結果は、少なくとも現段階では、ChatGPT が極端な命令を処理する際に特定のセキュリティ保護メカニズムを備えていることを示しています。これは、人工知能セキュリティ分野の研究に新たな視点を提供するとともに、人工知能技術の開発に関して慎重ながらも楽観的であり続ける必要があることを思い出させます。将来的には、より詳細な研究とより厳格な安全対策が依然として必要です。