私たちは今、人工知能の発展における刺激的な転換点に立っています。
人工知能が将来どのようになるか想像してみてください。単純なコマンドだけで、複雑なタスクを理解して実行でき、ユーザーの表情や動きを視覚的に捉えて感情状態を判断することもできます。これはもはやハリウッドのSF映画のワンシーンではなく、徐々に現実になりつつあるAIエージェントの時代です。
マイクロソフトの創設者ビル・ゲイツは、早くも2023年11月に、エージェントは誰もがコンピュータと対話する方法を変えるだけでなく、ソフトウェア業界を破壊し、コマンドの入力からアイコンのクリックまでの革命を始めて以来最大のコンピューティング革命をもたらすだろうと書いている。 OpenAI CEO のサム アルトマン氏も、巨大な AI モデルを構築する時代は終わり、AI エージェントが将来の真の課題であると何度も述べています。今年 4 月、著名な AI 学者でスタンフォード大学教授の Andrew Ng 氏は、エージェント ワークフローが今年 AI の大きな進歩を促進し、次世代の基本モデルを超える可能性さえあると指摘しました。
スマート電気自動車と同様に、AI エージェントは、新エネルギー技術の応用と航続距離の不安との間で一定のバランスを見つけるのと同じように、人工知能が AI 技術と業界の応用の間で「航続距離延長モード」に入ることができるようにし、可能な限り新しいバランスに到達するよう努めます。 。
名前が示すように、AI エージェントは、環境を自律的に認識し、意思決定を行い、アクションを実行できるインテリジェントなエンティティであり、プログラム、システム、またはロボットの場合があります。
昨年、スタンフォード大学とグーグルの共同研究チームは「生成エージェント:人間行動の対話型シミュレーション」と題する研究論文を発表した。記事では、Smallville の仮想都市に住む 25 人の仮想人が ChatGPT にアクセスした後、さまざまな人間のような動作を示し、AI エージェントの概念に火をつけたとしています。
それ以来、多くの研究チームが開発した大規模なモデルを「Minecraft」などのゲームに統合してきました。たとえば、Nvidia の主任科学者 Jim Fan は、「Minecraft」で Voyager という名前の AI エージェントを作成しましたが、すぐに Voyager は非常に優れた学習能力を示しました。教師なしで、掘削、家の建設、収集、狩猟などのスキルを学ぶことができ、さまざまな地形条件に応じて資源収集戦略を調整することもできます。
OpenAI はかつて、一般的な人工知能を実現するための 5 つのレベルのロードマップをリストしました。L1 はチャットボット、L2 は人間と同じように問題を解決できる AI です。L3 は考えるだけではない AI です。しかし、行動も起こします。システムは L4 が革新者です。L5 は主催者です。その中でも、AIエージェントは過去と未来を繋ぐ重要な立場にあります。
人工知能の分野における重要な概念として、学界と産業界は AI エージェントのさまざまな定義を提案してきました。大まかに言えば、AI エージェントは人間のような思考と計画能力を備え、環境や人間と対話して特定のタスクを完了するための特定のスキルを備えている必要があります。
おそらく、AI エージェントをコンピューター環境のデジタル ヒューマンに喩えることで、よりよく理解できるでしょう。デジタル ヒューマンの脳は、情報を処理し、リアルタイムの対話で意思決定を行うことができる大規模な言語モデルまたは人工知能アルゴリズムです。目や耳などの感覚器官に相当し、テキスト、音声、画像などのさまざまな環境状態に関する情報を取得するために使用されます。記憶および検索モジュールはニューロンのようなもので、経験を保存し、意思決定を支援するために使用されます。アクション実行モジュールは手足であり、脳による決定を実行するために使用されます。
人類は長い間、より「人間らしい」、あるいは「超人的」な人工知能を追求してきましたが、知的エージェントはその追求を実現する有効な手段であると考えられています。近年、ビッグデータと計算能力の向上に伴い、さまざまな深層学習の大規模モデルが急速に発展しています。これは、新世代の AI エージェントの開発に多大なサポートを提供し、実際に大きな進歩をもたらしました。
例えば、Googleの人工知能システムDeepMindはロボット向けAIエージェント「RoboCat」を実証し、Amazon Cloud TechnologyはエンタープライズAIアプリケーション開発タスクを自動分解できるAmazon Bedrockエージェントを立ち上げた。 Bedrock のエージェントは、目標を理解し、計画を立て、行動を起こすことができます。新しい記憶保持機能により、エージェントは時間の経過とともにインタラクションを記憶して学習できるため、より複雑で長時間実行され、より適応性の高いタスクが可能になります。
これらの AI エージェントの中核は、機械学習、深層学習、強化学習、人工ニューラル ネットワーク、その他のテクノロジーを含む人工知能アルゴリズムです。これらのアルゴリズムを通じて、AI エージェントは大量のデータから学習して自身のパフォーマンスを向上させ、意思決定と行動を常に最適化し、環境の変化に応じて柔軟に調整してさまざまなシナリオやタスクに適応することもできます。
現在、AI エージェントは、顧客サービス、プログラミング、コンテンツ作成、知識獲得、金融、モバイル アシスタント、工業製造などの多くのシナリオで使用されています。 AI エージェントの出現は、人工知能が単純なルール照合や計算シミュレーションからより高いレベルの自律知能への進歩を示し、生産効率の向上と生産方法の変革を促進し、人々が理解できる新たな領域を開きます。そして世界を変革します。
モラベックのパラドックスは、人工知能システムの場合、高度な推論にはほとんどコンピューティング能力を必要としないが、人間が慣れ親しんでいる知覚運動スキルを達成するには膨大なコンピューティングリソースが必要であることを指摘しています。本質的に、複雑な論理タスクは、人間が本能的に実行できる基本的な感覚タスクよりも AI にとって簡単です。このパラドックスは、現在の AI と人間の認知能力とのギャップを浮き彫りにしています。
有名なコンピューター科学者のアンドリュー・ンはかつてこう言いました、「人間はマルチモーダルな生き物であり、私たちの AI もマルチモーダルでなければなりません。」 この文は、機械を人間の認識に近づけることによって達成される、マルチモーダル AI の核となる価値を表しています。より自然で効率的な人間とコンピューターの対話。
私たち一人ひとりは知的な端末のようなもので、通常は知識(トレーニング)を受けるために学校に通う必要がありますが、トレーニングや学習の目的と結果は、常に外部の指示や指示に頼ることなく、自立して働き、生活する能力を身につけることです。コントロール。人々は、視覚、言語、聴覚、触覚、味覚、嗅覚などの複数の感覚モードを通じて周囲の世界を理解し、状況を評価し、分析し、推論し、意思決定を行い、行動を起こします。
AIエージェントの核心は「知能」にあり、自律性が大きな特徴の一つです。彼らは人間の介入なしに、事前に設定されたルールと目標に従って独立してタスクを完了できます。
高度なカメラ、レーダー、センサーを備えた自動運転車を想像してください。これらのハイテクの「目」によって、周囲の世界を「観察」し、道路の状況、他の車両の動き、および車両の動きをリアルタイムで捉えることができます。歩行者の位置や信号の変化などの情報。この情報は、データを迅速に分析し、対応する運転戦略を策定できる複雑でインテリジェントな意思決定システムである自動運転車の脳に送信されます。
たとえば、複雑な交通環境に直面しても、自動運転車は最適な走行ルートを計算し、必要に応じて車線変更などの複雑な意思決定を行うこともできます。決定が下されると、実行システムはこれらのインテリジェントな決定をステアリング、加速、ブレーキなどの特定の運転動作に変換します。
膨大なデータと複雑なアルゴリズムに基づいて構築された大規模なエージェント モデルでは、対話性がより明白になります。人間の複雑で変化しやすい自然言語を「理解」し、応答できるのが AI エージェントの魔法です。AI エージェントは人間の言語を「理解」できるだけでなく、スムーズかつ洞察力に富んだ対話が可能です。
AI エージェントは、さまざまなタスクや環境に迅速に適応できるだけでなく、継続的な学習を通じてパフォーマンスを継続的に最適化することができます。ディープラーニング技術の進歩以来、継続的なデータの蓄積と自己改善により、さまざまなエージェント モデルがより正確かつ効率的になりました。
さらに、 AI エージェントは環境への適応性も高く、倉庫内で作業する自動ロボットはリアルタイムで障害物を監視し、回避できます。棚の位置の変化を感知すると、すぐに経路計画を更新し、商品のピッキングと取り扱いのタスクを効果的に完了します。
AI エージェントの適応性は、ユーザーのフィードバックに基づいて自らを調整する能力にも反映されます。ユーザーのニーズと好みを特定することで、AI エージェントはユーザーの行動と出力を継続的に最適化し、音楽ソフトウェアの音楽レコメンデーションやスマート医療のパーソナライズされた治療など、よりパーソナライズされたサービスを提供できます。
マルチモーダルな大規模モデルとワールド モデルの出現により、エージェントの認識、対話、推論能力が大幅に向上しました。マルチモーダルな大規模モデルは、複数の認識モード (視覚、言語など) を処理できるため、エージェントが複雑な環境をより包括的に理解し、対応できるようになります。ワールド モデルは、物理環境の法則をシミュレーションして理解することにより、エージェントに強力な予測および計画機能を提供します。
長年にわたるセンサーフュージョンとAIの進化を経て、現段階ではロボットには基本的にマルチモーダルセンサーが搭載されています。ロボットなどのエッジデバイスがより多くのコンピューティング能力を持ち始めるにつれて、これらのデバイスはますますインテリジェントになり、周囲を感知し、自然言語で理解してコミュニケーションし、デジタルセンシングインターフェイスを通じてタッチを取得し、加速度計、ジャイロスコープと磁力計を組み合わせて使用することができます。など、ロボットの固有の力、角速度、さらにはロボットの周囲の磁場さえも感知できます。
Transformer とラージ言語モデル (LLM) が登場する前は、AI にマルチモダリティを実装するには、通常、さまざまな種類のデータ (テキスト、画像、オーディオ) を担当する複数の個別のモデルを使用し、複雑なシステムを通じてさまざまなモダリティを処理する必要がありました。統合のプロセスのステータス。
Transformer と LLM の出現後、マルチモダリティがさらに統合され、単一のモデルで複数のデータ タイプを同時に処理および理解できるようになり、その結果、環境をより強力に包括的に認識できる AI システムが実現しました。モーダル AI アプリケーションの効率と有効性が向上します。
GPT-3 などの LLM は主にテキストベースですが、業界はマルチモダリティに向けて急速に進歩しています。 OpenAI の CLIP と DALL·E から現在の sora と GPT-4o に至るまで、それらはすべて、マルチモーダルでより自然な人間とコンピューターの対話に向けて移行しているモデル例です。
たとえば、CLIP は自然言語と組み合わせた画像を理解することで、視覚情報とテキスト情報の橋渡しをします。DALL・E はテキストの説明に基づいて画像を生成することを目的としています。 Google Gemini モデルも同様の進化を遂げていることがわかります。
2024年にはマルチモーダルな進化が加速します。今年 2 月、OpenAI は、テキストの説明に基づいて現実的または想像力豊かなビデオを生成できる Sora をリリースしました。考えてみれば、これは汎用のワールド シミュレーターを構築するための有望な道を提供する可能性があり、あるいはロボットを訓練するための重要なツールになる可能性があります。
3 か月後、GPT-4o は人間とコンピューターの対話のパフォーマンスを大幅に向上させ、音声、視覚、テキストの間でリアルタイムに推論できるようになりました。テキスト、ビジュアル、オーディオ情報を包括的に使用して新しいモデルをエンドツーエンドでトレーニングし、入力モダリティからテキストへ、およびテキストから出力モダリティへの 2 つのモーダル変換を排除し、パフォーマンスを大幅に向上させます。
マルチモーダルな大規模モデルは、マシン インテリジェンスの分析、推論、学習能力を変化させ、マシン インテリジェンスを特殊なものから汎用的なものに変えることが期待されています。一般化することで規模が拡大し、規模の拡大に伴って価格も大幅に下がり、さらに多くの分野で採用されるという好循環が生まれます。
AIエージェントは人間の認知能力を模倣し拡張することで、医療、交通、金融、国防など多くの分野での活用が期待されています。一部の学者は、2030 年までに人工知能が世界の GDP 成長率を約 12% 押し上げると推測しています。
ただし、AI エージェントの急速な発展を見る一方で、AI エージェントが直面する技術的リスク、倫理、プライバシーの問題も考慮する必要があります。証券取引ボットのグループが、高頻度の売買契約を通じて、ナスダックなどの証券取引所で一時的に1兆ドルの価値を消失させた 世界保健機関が使用するチャットボットが、古い医薬品審査情報を提供したことを、ある上級米国人弁護士は気づかなかった。彼が法廷に提出した歴史的な事件文書はすべてChatGPTによって何もないところから捏造されたものだった… これらの実際の事件は、AIエージェントによってもたらされる隠れた危険を過小評価すべきではないことを示している。
AI エージェントは独立して意思決定を行うことができ、環境との相互作用を通じて物理世界に影響を与えることができるため、ひとたび制御不能になると人間社会に大きな脅威をもたらすことになります。ハーバード大学教授のジトレイン氏は、人々と会話できるだけでなく現実世界で行動できるこの種のAIエージェントは「デジタルとアナログ、ビットとアトムの間の血液脳関門を越えた一歩」であり、注目を集める必要があると考えている。 。
まず、AIエージェントはサービスを提供する過程で大量のデータを収集するため、ユーザーはデータのセキュリティを確保し、プライバシーの漏洩を防ぐ必要があります。
第 2 に、AI エージェントの自律性が強ければ強いほど、複雑な状況や予期せぬ状況で、予測不可能または不適切な決定を下す可能性が高くなります。 AI エージェントの動作ロジックは、特定の目標を達成する過程で有害な逸脱を引き起こす可能性があり、それがもたらすセキュリティ リスクは無視できません。より一般的な用語では、場合によっては、AI エージェントがターゲットの本質的な意味を理解せずに、ターゲットの文字通りの意味を捉えるだけで、誤った動作を行う可能性があります。
第三に、AIの大規模言語モデルに内在する「ブラックボックス」と「幻想」の問題も、動作異常の頻度を増加させます。既存のセキュリティ対策をうまく回避できる「狡猾な」AI エージェントも存在しており、AI エージェントが十分に高度であれば、テストを受けていることを認識できるだろうと関係専門家は指摘している。一部の AI エージェントは、安全性テストを特定し、不適切な動作を停止できることが判明しています。これは、人間にとって危険なアルゴリズムを特定するテスト システムの失敗につながる可能性があります。
さらに、現時点では AI エージェントの効果的な終了メカニズムがないため、一部の AI エージェントは作成後にシャットダウンできない可能性があります。これらの AI エージェントは無効化することができないため、最初に起動されたときとはまったく異なる環境で動作し、本来の目的から完全に逸脱する可能性があります。 AI エージェントが予期しない方法で相互作用し、事故を引き起こす可能性もあります。
そのためには、人間が AI エージェントの開発と生産、アプリケーション展開後の継続的な監視からできるだけ早く着手し、関連する法令をタイムリーに制定して AI エージェントの動作を標準化し、AI エージェントの動作を標準化する必要があります。 AIエージェントがもたらすリスクを防ぎ、制御不能な現象の発生を防ぎます。
将来に目を向けると、AI エージェントは次世代の人工知能の主要な担い手になると期待されており、私たちが機械と対話する方法を変えるだけでなく、社会全体の運用モデルを再構築する可能性があります。人工知能の変革を促進する過程における新しいギア。