人間界の日常のあらゆる活動が『Minecraft』内で1:1で再現されます。 1,000 億の AI エージェントで構成される文明は実際には次のようになります。
世界初の「AI知的文明」がついに明らかに!
2 か月前、1,000 人を超えるエージェントが仮想世界で協力して、独自の経済、文化、宗教、政府を構築しました...
ネチズンらは「西部劇の現実版と言える」と歓喜の声を上げた。
さて、この文明は再び進化しました。1,000 億人の AI エージェントが存在する世界はどのようなものでしょうか。
彼らは個人であり、グループでもあります。
人間の日常生活におけるすべての活動は、「Minecraft」内で 1:1 で再現されます。
北京大学の卒業生であるロバート・ヤン氏は、チームの最新の研究を共有し、PIANOの背後にある新しい「認知アーキテクチャ」を初めて紹介しました。
PIANO (Parallel Information Aggregation Neural Coordination) は、AI エージェントが複数の出力ストリームの一貫性を維持しながら複数の関係者と対話できるようにするアーキテクチャです。
プロジェクトアドレス: https://github.com/altera-al/project-sid
AI エージェントは、意識的と潜在意識の両方の方法で、複数の時間スケールで同時に考え、行動するにはどうすればよいでしょうか?
ピアノの鍵盤と同じように、鍵盤はさまざまな脳モジュールを表します。一緒に演奏すると美しい和音を奏でることができます。知的エージェントでは、人間に似た性質も生み出されます。
これらの知的エージェントは「文明」を構築します。税金、貿易、政府、国、宗教…人間界のあらゆる日常活動もAIエージェントに含まれます。
さらに、AI エージェントは他人の感情を正確に推測し、友情を築き、さらには敵を作ることもできます。社会恐怖症の人間など、一部の内向的なエージェントは、外向的なエージェントよりも社会的なつながりが少ないです。
一部のネチズンは、私たちはシミュレーションマトリックスの中で生きており、未来は今であると言いました。
次にAIエージェントの「世界」の全体像を見てみましょう。
なぜAI知能文明が必要なのか?
AIエージェントが人間と共存し、私たちの社会に溶け込むためには、AIエージェントが自律するだけでなく、協調する能力も必要です。
近年、推論と意思決定のための大規模言語モデル (LLM) の進歩により、エージェントの自律性が大幅に強化されました。
しかし、ただ自主性を持っているだけでは十分ではありません。エージェントはまた、人類文明において人間および他のエージェントと共存しなければなりません。
論文の著者は次のように述べています。
人間以外の文明と共存し、進歩するエージェントの能力によって文明の進歩を測ることは、人工知能エージェントの能力の究極のベンチマークとなります。
しかし、AI文明を構築するのは簡単ではありません。
まず、LLM ベースのエージェントは、行動や推論において現実感を維持することが困難であることがよくあります。
計画と反省のためのモジュールが装備されている場合でも、エージェントは反復的な行動パターンに陥ったり、幻覚によってエラーが蓄積したりして、有意義な進歩を妨げることがよくあります。
第 2 に、エージェントが自分の考えや意図を誤解して伝えると、他のエージェントに誤解を与え、さらなる幻覚やループにつながる可能性があります。このようなミスコミュニケーションはエージェントのグループ内で頻繁に発生し、機能不全の行動を引き起こし、グループ内の個人のパフォーマンスを悪化させます。
最後に、現在のエージェントのベンチマークは、Web 検索、プログラミング、検索とクエリ、推論などのさまざまなドメインにおける自律エージェントのパフォーマンスに焦点を当てています。
では、AI エージェントを構築するための最適なソリューションは何でしょうか?
新しいPIANOアーキテクチャ
既存の問題を解決するために、新しい PIANO アーキテクチャが誕生しました。
PIANO アーキテクチャは、包括的で柔軟性の高いインテリジェント エージェント設計フレームワークです。
このうち、P は知覚モジュール、I はインテリジェントコア、A はアクションモジュールを表します。 PIANO アーキテクチャの最も顕著な特徴の 1 つは、エージェントが同時に考えて行動できることです。
この機能は、従来のアーキテクチャに存在する可能性のある、アクションと思考の間の相互制約の制限を打ち破ります。
複雑で絶えず変化する環境では、エージェントは、迅速な対応が必要な差し迫った脅威や、思慮深い長期計画など、さまざまな状況に直面します。
行動の一貫性の観点から、コグニティブ コントローラー (CC) モジュールが導入されています。
コグニティブ コントローラー (CC) モジュールは、インテリジェント エージェントの「脳の中枢」のようなもので、高レベルの意思決定を行います。コグニティブ コントローラーは、各モジュールから情報を受信して合成することで、この情報を統合された調整された意思決定に変換します。さらにそれを各モーターモジュールの適切な出力に変換します。
これにより、さまざまなモジュール間の調和のとれたコラボレーションが保証され、独立して動作するさまざまなモジュールによって引き起こされる不一致が回避されます。
上記の 2 つのアーキテクチャ原則に基づいて、PIANO アーキテクチャ システムは、同時に実行される 10 個の異なるモジュールで構成されます。そのコア モジュールには次のものがあります。
-メモリ:
メモリ モジュールは、エージェントの「知恵の宝庫」と言えます。日常の短い挨拶でも、詳細な技術的な議論でも、感情的なコミュニケーションでも、あらゆる言葉や口調の変化が正確に保存されます。
さらに、エージェントは各ステップの説明だけでなく、会話での質問、回答の順序、双方が強調した重要なポイントも記憶できます。
-行動認識:
人間ドック制度のようなものです。このモジュールを通じて、エージェントは自身のエネルギー予備量を正確に把握し、残りの電力がどのくらいの時間動作をサポートできるか、または燃料予備量がタスクの次の段階を完了するのに十分であるかどうかを知ることができます。
同時に、センサーが適切に動作しているかどうか、機械的ジョイントの柔軟性、データ処理ユニットの計算速度などの検出など、さまざまなコンポーネントをリアルタイムで監視できます。いかなる小さな異常もその「目」から逃れることはできません。
-対象世代:
これはエージェントの豊富な経験と環境との深い相互作用に基づいており、常に新しい目標を育み、エージェントを前進させます。
例えば、マルチエージェント連携の物流シナリオにおいて、エージェントは貨物輸送中に特定のエリアで渋滞が頻繁に発生することを発見し(環境相互作用)、以前に輸送ルートの最適化に参加したことがある(過去の経験)場合、目標が生成されます。このモジュールは、他のエージェントと協力して、混雑したエリアを回避する新しい輸送ルート計画を設計するという新しい目標を生成する可能性があります。
この目標生成メカニズムにより、エージェントは積極的に探求し革新する能力が得られるため、エージェントは事前に設定されたタスクを受動的に実行するだけでなく、実際の状況に応じて行動範囲を積極的に拡大します。
-社会的認知度:
それは、インテリジェントなエージェントがグループを理解し、グループに統合するための扉を開きます。
理解しやすく、特定のアクション情報に迅速に応答できます。
たとえば、単純なジェスチャー (腕を上げることは、助けを求めたり、注意を引いたりすることを意味する場合があります)、または特定の体の姿勢 (わずかに前かがみになることは、親しみやすさや注意を示すことを意味する場合があります) など、社会認識モジュールはその意味を正確に認識し、理解することができます。
もちろん、他のエージェントからのヘルプ信号を認識した場合は、自身の能力と現在のタスク状況に基づいてヘルプを提供するかどうかを決定できます。
-対話:
対話モジュールはインテリジェント エージェントの「言語センター」であり、外部世界との効果的なコミュニケーションの鍵となります。
ダイアログ モジュールには、強力な構文分析と意味理解機能があります。簡潔で明確な指示、感情表現、複雑で抽象的な概念的説明など、受信したあらゆる種類の言語入力を正確に解析できます。
さらに、あいまいな言語については、文脈や言語習慣に基づいて合理的な推論を行うこともできます。
言語生成の点では、対話モジュールはエージェントの内部状態と意図に基づいて考えを正確に表現できます。
-スキル実行:
スキル実行モジュールは、インテリジェント エージェントと外部環境の間の対話を直接実行します。エージェントが環境内で特定のスキルまたはアクションを実行する必要がある場合、スキル実行モジュールは関連する部分を秩序だった方法で調整します。
シングルエージェントからマルチエージェントへの進化
「Minecraft」を例に挙げると、研究者は知的文明の進歩を観察し測定するために、1,000 の評価項目を選択しました。
単一エージェント
まず、エージェントのパフォーマンスは、Minecraft 内でアイテムを取得する方法によって評価されます。
研究者たちは最初に 25 人のエージェントをセットアップし、彼らの生まれた場所は遠く離れており、これらのエージェントは全員「エクスプローラー」を探索してアイテムを収集するように設定されていました。
彼らは、地表、洞窟、森林、その他の異なる環境など、さまざまな場所で生まれます。スポーンポイントが異なるということは、リソースが異なることを意味し、アイテム収集という目標を達成する難易度も異なります。
たとえば、資源が豊富な地表で生まれたエージェントは、基本的な道具を簡単に作ることができる木や石などの基本的な材料を周囲にたくさん持っている可能性がありますが、洞窟で生まれたエージェントは、鉱物だけでなく、暗闇やモンスターなどもあり、危険なので、より多くの種類のものを入手するには外を探索する必要があります。
研究者らは、完全な PIANO アーキテクチャを備えたエージェントと 30 分間プレイした後、平均 17 個の異なるアイテムを取得できることを発見しました。ただし、そのパフォーマンスは主に生まれた位置の違いにより大きく異なります。
一部のエージェントは 5 個未満のアイテムしか取得できませんが、最もパフォーマンスの高いエージェントは 30 ~ 40 個のアイテムを取得できます。これは、「Minecraft」である程度の経験を持つ人間のプレイヤーとほぼ同じです。
では、単一エージェントの開発の上限はどれくらいでしょうか?
研究者らは、同じ条件下でエージェントの数を 49 人に増やし、4 時間プレイさせたことを発見しました。多くの実験の結果、すべてのエージェントが収集したさまざまなアイテムの数は、「Minecraft」の全アイテムの 3 分の 1 (約 320 アイテム) で安定していることがわかりました。
マルチエージェント
マルチエージェントは、その名前が示すように、同じ環境内で相互に通信または競合できる複数のエージェントのグループです。
小グループ:
エージェントがグループ内で協力し、成長するためには、他のエージェントの行動や考えを理解できなければなりません。この能力により、エージェントは社会環境の状況に応じて行動を調整することができます。 。
たとえば、味方と協力する場合は信頼を築き、敵と協力する場合は競争や対立に対処します。研究者らは実験を通じて、エージェントは社会的能力があるだけでなく、最大50人のエージェントの大規模シミュレーションで有意義な社会的関係を形成できることを発見した。
研究者らは主に、2セットの実験を通じて、グループにおけるエージェントの役割と意識を研究した。
-社会意識の高いエージェントはチャットを通じて他の人の感情を推測できますか?
「Minecraft」の 3 人のキャラクターとエージェントの間のチャット実験では、ゲーム内のキャラクターが愛、怒り、愛などの感情の変化を表現するとき、エージェントはこれらの感情の変化を完全に理解し、React を作成できることがわかります。それに応じて。
-エージェントは感情を察知し、それに応じて行動できますか?
別の実験では、ゲーム内のキャラクターが同じエージェントをどれだけ好きか嫌いかによってエージェントの行動が推測されたが、研究者らは、エージェントがゲームキャラクターの意図を正確に推測するだけでなく、その意図を利用してそのエージェントを行動させることも発見した。行動を決めるときは自分自身の決断。
社会:
その後、研究者らはランダムに生成された「Minecraft」のマップに 50 人のエージェントを配置し、各エージェントに独自の個性を与え、この世界を自由に移動し、他のエージェントと自由にコミュニケーションできるようにしました。
研究者らは、この自由シナリオでは、エージェントが他のエージェントの役割を正確に判断できるだけでなく、判断に関与するエージェントの数が増え、コミュニケーションが長くなるほど、判断の精度が高まることを発見しました。
さらに、この実験では、研究者らはいくつかの重要な現象も発見しました。
-ソーシャルモジュールの重要性:
ソーシャル モジュールが削除された場合、この時点でエージェント間の関係は比較的フラットになります。これは、ソーシャル モジュールが (良い方向か悪い方向かは別として) 長期的な関係の発展にとって非常に重要であることを示しています。
-ソーシャルネットワークにおける個性の影響:
研究者らは、一部のエージェントがその性格に基づいて異なる社会的つながりパターンを持っていることを発見しました。
たとえば、内向的なエージェントは外向的なソーシャル エージェントに比べてつながりが大幅に少なく、これは性格が大規模で複雑なソーシャル ネットワークにも反映される可能性があることを示しています。
そして、ほとんどの場合、感情は相互に影響しますが、常にそうとは限りません。対人関係が複雑で必ずしも相互関係があるとは限らない現実世界の状況と同じように、エージェントは、それを無視する別のエージェントに対して好意的な意見を持っている場合があります。
文明が生まれる
シングルエージェントからマルチエージェントへの進化の次のステップは文明の誕生です。
文明を進歩させるエージェントの能力を評価するために、研究者たちはいくつかの状況で彼らがどのように行動するかを評価しました。
– 団体ルールに基づく代理店の行動(税法の遵守と改正を中心に)
– ミームの自発的生成と単一宗教の構造化されたコミュニケーションを通じて文化コミュニケーションを探求する
それぞれが自分の職務を遂行し、分業を専門としています。
文明の進歩を推進し、農業、統治、文化、技術の進歩を促進するのは、人間の専門分業です。これらの新たな文明的特質を再現するには、エージェントもそれらを備えている必要があります。
この目的を達成するために、著者はエージェントの専門化に関する 3 つの基本的な基準を提案します。
まず、役割の選択と移行に自主性を持たせます。第二に、彼らの専門性は、明確な指示や制限なしに、対話と経験を通じて実証されるべきです。最後に、彼らが選択した役割は、その職業に応じた行動に反映される必要があります。
以下の図に示すように、研究者は知的エージェントを村に配置し、農民や技術者などのさまざまな職業を独自に開発します。
社会的認識を取り除くと、エージェントは時間の経過とともに持続しない、より均質な役割を選択するようになります。
以下は、村内の 30 人のエージェントの行動の分布をシミュレートしたものです。
税法の遵守、法律の変更
AI エージェントは独自の法律を作成したり変更したりできますか?
次に、研究者らは税制を実装してエージェントをテストしました。彼らは税法を遵守しただけでなく、国民感情に基づいて税率変更を民主的に投票したことが判明した。
宗教の広がりは町によって異なる
最後に、AI エージェントは独自の文化を発展させることができるでしょうか?
研究者らは特にミームの有機的な広がりに注目し、エージェントがどのように架空の宗教を形成し、エージェント協会を通じて広まったかを追跡した。
さらに興味深いのは、田舎と町では異なる文化パターンがあることです。
北京大学の卒業生が共感AIを構築するビジネスを立ち上げる
Project Sid が立ち上げられた理由は、アルテラの AI チームがこれらの問題を探求することで、最終的にはデジタル ヒューマンが人間社会にシームレスに統合できることを期待しているからです。
Robert Yang は、Altera の共同創設者兼 CEO です。
以前は、ニューヨーク大学とイェール大学で計算神経科学の博士号を取得し、北京大学で物理学の学士号を取得しました。
彼は MIT の脳・認知科学学部と電気工学・コンピューターサイエンス学部の教授であり、MIT メタコンシャス グループのリーダーでした。
2023 年に彼は研究室を閉鎖し、MIT の終身在職トラック職を辞してアルテラを設立しました。
アルテラのチームは小規模ですが、人材密度は非常に高いです——
この組織は、計算神経科学者、物理オリンピック選手、MIT 電気工学部およびコンピュータ サイエンス学部、スタンフォード大学の自然言語処理グループ、Google X、Citadel、Supercell などのエンジニアで構成されています。
半年以上前に設立されたこの会社は、アンドリーセン・ホロヴィッツ氏率いるシードファイナンスで年初に200万米ドルを受け取っていた。
3か月後、元Google CEOエリック・シュミット氏のFirst Spark Ventures、Patron VC、エンジェル投資家のミッチ・ラスキーらが主導し、さらに900万ドルを調達した。
今年 5 月、アルテラはメンローパークに支店を開設し、スマート消費者向け製品の最初のサプライヤーとなることに尽力しています。