Alle täglichen Aktivitäten in der Menschenwelt werden in „Minecraft“ 1:1 nachgebildet. Eine Zivilisation bestehend aus 100 Milliarden KI-Agenten sieht tatsächlich so aus.
Die weltweit erste „KI-intelligente Zivilisation“ wurde endlich enthüllt!
Vor zwei Monaten haben mehr als 1.000 Agenten in der virtuellen Welt zusammengearbeitet, um ihre eigene Wirtschaft, Kultur, Religion und Regierung aufzubauen ...
Internetnutzer riefen aus, dass es sich um eine reale Version der „Westlichen Welt“ handeln könne.
Nun hat sich diese Zivilisation erneut weiterentwickelt. Wie sieht die Welt mit einer Zivilisation von 100 Milliarden KI-Agenten aus?
Sie sind ein Individuum und eine Gruppe.
Alle Aktivitäten des menschlichen Alltags werden in „Minecraft“ 1:1 nachgebildet.
RoBERT Yang, ein Absolvent der Peking-Universität, teilte die neuesten Forschungsergebnisse des Teams und stellte zum ersten Mal die neue „kognitive Architektur“ hinter PIANO vor.
PIANO (Parallel Information Aggregation Neural Coordination) ist eine Architektur, die es KI-Agenten ermöglicht, mit mehreren Parteien zu interagieren und gleichzeitig die Kohärenz in mehreren Ausgabeströmen aufrechtzuerhalten.
Projektadresse: https://github.com/altera-al/project-sid
Wie kann ein KI-Agent auf mehreren Zeitskalen gleichzeitig denken und handeln und dabei sowohl bewusst als auch unbewusst agieren?
Genau wie die Tasten eines Klaviers repräsentieren sie verschiedene Gehirnmodule. Wenn sie zusammen gespielt werden, können sie wunderschöne Akkorde erzeugen. Bei intelligenten Agenten werden auch menschenähnliche Eigenschaften erzeugt.
Diese intelligenten Agenten werden eine „Zivilisation“ aufbauen. Steuern, Handel, Regierung, Land, Religion ... alle täglichen Aktivitäten in der menschlichen Welt sind auch in KI-Agenten enthalten.
Darüber hinaus können KI-Agenten genau auf die Gefühle anderer schließen, Freundschaften schließen und sich sogar Feinde machen. Einige introvertierte Agenten, wie z. B. soziophobe Menschen, haben weniger soziale Verbindungen als extrovertierte Agenten.
Einige Internetnutzer sagten, wir leben in einer Simulationsmatrix und die Zukunft sei jetzt.
Werfen wir als Nächstes einen Blick auf die „Welt“ der KI-Agenten. Wie ist das Gesamtbild?
Warum wird eine intelligente KI-Zivilisation benötigt?
Damit KI-Agenten mit Menschen koexistieren und sich in unsere Gesellschaft integrieren können, müssen sie nicht nur autonom, sondern auch zur Zusammenarbeit fähig sein.
In den letzten Jahren haben Fortschritte bei großen Sprachmodellen (LLMs) für Argumentation und Entscheidungsfindung die Autonomie von Agenten erheblich verbessert.
Allerdings reicht es nicht aus, einfach Autonomie zu haben. Agenten müssen auch mit Menschen und anderen Agenten in der menschlichen Zivilisation koexistieren.
Wie der Autor des Papiers sagte:
Die Messung des zivilisatorischen Fortschritts anhand der Fähigkeit von Agenten, nichtmenschliche Zivilisationen zu koexistieren und voranzutreiben, stellt den ultimativen Maßstab für die Fähigkeiten von Agenten der künstlichen Intelligenz dar.
Aber der Aufbau einer KI-Zivilisation ist nicht einfach.
Erstens haben LLM-basierte Agenten oft Schwierigkeiten, in ihren Handlungen und Überlegungen den Realitätssinn aufrechtzuerhalten.
Selbst wenn Agenten mit Planungs- und Reflexionsmodulen ausgestattet sind, verfallen sie oft in sich wiederholende Verhaltensmuster oder häufen Fehler durch Halluzinationen an, was einen sinnvollen Fortschritt verhindert.
Zweitens können Agenten, die ihre Gedanken und Absichten falsch kommunizieren, andere Agenten in die Irre führen, was zu weiteren Halluzinationen und Schleifen führt. Diese Fehlkommunikation tritt häufig in Gruppen von Agenten auf und führt zu dysfunktionalem Verhalten und einer Verschlechterung der Leistung einzelner Personen in der Gruppe.
Schließlich konzentriert sich das aktuelle Benchmarking von Agenten auf die Leistung autonomer Agenten in verschiedenen Bereichen wie Websuche, Programmierung, Suche und Abfrage sowie Argumentation.
Was ist also die optimale Lösung für den Aufbau eines KI-Agenten?
Neue PIANO-Architektur
Um bestehende Probleme zu lösen, entstand die neue PIANO-Architektur.
Die PIANO-Architektur ist ein umfassendes, hochflexibles Framework für das Design intelligenter Agenten.
Unter diesen repräsentiert P das Wahrnehmungsmodul, I den intelligenten Kern und A das Aktionsmodul. Eines der auffälligsten Merkmale der PIANO-Architektur ist, dass sie es den Agenten ermöglicht, gleichzeitig zu denken und zu handeln.
Diese Funktion durchbricht die Beschränkungen gegenseitiger Beschränkungen zwischen Handeln und Denken, die in traditionellen Architekturen bestehen können.
In komplexen und sich ständig verändernden Umgebungen sind Agenten mit einer Vielzahl von Situationen konfrontiert, darunter unmittelbare Bedrohungen, die eine schnelle Reaktion sowie eine durchdachte langfristige Planung erfordern.
Im Hinblick auf die Verhaltenskohärenz wird das Modul des kognitiven Controllers (CC) eingeführt.
Das Modul des kognitiven Controllers (CC) ist wie das „Gehirnzentrum“ des intelligenten Agenten, das für die Entscheidungsfindung auf hoher Ebene verantwortlich ist. Durch den Empfang und die Synthese von Informationen aus jedem Modul wandelt der kognitive Controller diese Informationen in eine einheitliche und koordinierte Entscheidung um. und wandelt es in jedem Motormodul weiter in die entsprechende Leistung um.
Es sorgt für eine harmonische Zusammenarbeit zwischen verschiedenen Modulen und vermeidet Inkonsistenzen, die dadurch entstehen, dass verschiedene Module unabhängig voneinander arbeiten.
Basierend auf den beiden oben genannten Architekturprinzipien besteht das PIANO-Architektursystem aus 10 verschiedenen Modulen, die gleichzeitig ausgeführt werden. Zu seinen Kernmodulen gehören:
-Erinnerung:
Das Speichermodul kann als „Schatzkammer der Weisheit“ des Agenten bezeichnet werden. Ob es sich um eine kurze tägliche Begrüßung, ein ausführliches Fachgespräch oder eine emotionale Kommunikation handelt, jedes Wort und jede Tonänderung wird präzise gespeichert.
Darüber hinaus kann sich der Agent nicht nur die Beschreibung jedes Schritts merken, sondern auch die im Gespräch gestellten Fragen, die Reihenfolge der Antworten und die von beiden Parteien hervorgehobenen Kernpunkte.
-Aktionsbewusstsein:
Es ist wie ein umfassendes körperliches Untersuchungssystem. Durch dieses Modul kann der Agent seine eigene Energiereserve genau erfassen und wissen, wie lange die verbleibende Leistung den Betrieb unterstützen kann oder ob die Kraftstoffreserve ausreicht, um die nächste Phase der Aufgabe abzuschließen.
Gleichzeitig können verschiedene Komponenten in Echtzeit überwacht werden, beispielsweise die ordnungsgemäße Funktion des Sensors, die Flexibilität der mechanischen Gelenke, die Rechengeschwindigkeit der Datenverarbeitungseinheit usw. Keine kleine Anomalie kann seinen „Augen“ entgehen.
-Zielgenerierung:
Es basiert auf der reichen Erfahrung des Agenten und der intensiven Interaktion mit der Umgebung, die ständig neue Ziele fördert und den Agenten vorantreibt.
In einem Logistikszenario mit mehreren Agenten stellt der Agent beispielsweise fest, dass es während des Gütertransports häufig zu Staus in einem bestimmten Bereich kommt (Umweltinteraktion), und er hat zuvor an der Optimierung der Transportrouten teilgenommen (Erfahrung aus der Vergangenheit), und dann wird das Ziel generiert Das Modul könnte ein neues Ziel generieren: mit anderen Agenten zusammenzuarbeiten, um ein neues Transportroutenschema zu entwerfen, das überlastete Gebiete vermeidet.
Dieser Zielgenerierungsmechanismus verleiht dem Agenten die Fähigkeit, aktiv zu forschen und zu innovieren, sodass er nicht nur passiv vorgegebene Aufgaben ausführt, sondern sein Aktionsfeld auch aktiv entsprechend der tatsächlichen Situation erweitert.
-Soziales Bewusstsein:
Es öffnet intelligenten Agenten die Tür, die Gruppe zu verstehen und sich in sie zu integrieren.
Es ist einfach zu verstehen und kann schnell auf bestimmte Aktionsinformationen reagieren.
Beispielsweise kann das Modul für soziales Bewusstsein eine einfache Geste (das Heben eines Arms kann bedeuten, um Hilfe zu bitten oder Aufmerksamkeit zu erregen) oder eine bestimmte Körperhaltung (ein leichtes Vorbeugen kann Freundlichkeit und Aufmerksamkeit signalisieren) genau erkennen und verstehen.
Wenn er das Hilfesignal anderer Agenten erkennt, kann er natürlich anhand seiner eigenen Fähigkeiten und der aktuellen Aufgabensituation entscheiden, ob er Hilfe leistet.
-Dialog:
Das Dialogmodul ist das „Sprachzentrum“ des intelligenten Agenten und der Schlüssel für eine effektive Kommunikation mit der Außenwelt.
Das Dialogmodul verfügt über leistungsstarke Funktionen zur Syntaxanalyse und zum semantischen Verständnis. Es kann alle Arten von Spracheingaben, die es empfängt, genau analysieren, unabhängig davon, ob es sich um prägnante und klare Anweisungen, emotionale Ausdrücke oder komplexe und abstrakte konzeptionelle Beschreibungen handelt.
Darüber hinaus können bei vager oder mehrdeutiger Sprache auch vernünftige Schlussfolgerungen auf der Grundlage des Kontexts und der Sprachgewohnheiten gezogen werden.
Was die Sprachgenerierung betrifft, kann das Dialogmodul seine Gedanken basierend auf dem inneren Zustand und den Absichten des Agenten präzise ausdrücken.
-Fertigkeitsausführung:
Das Skill-Execution-Modul ist der direkte Ausführer der Interaktion zwischen dem intelligenten Agenten und der externen Umgebung. Wenn der Agent eine bestimmte Fertigkeit oder Aktion in der Umgebung ausführen muss, koordiniert das Fertigkeitsausführungsmodul die relevanten Teile auf geordnete Weise.
Single-Agent-Multi-Agent-Entwicklung
Am Beispiel von „Minecraft“ wählten die Forscher 1.000 Objekte zur Bewertung aus, um den Fortschritt der intelligenten Zivilisation zu beobachten und zu messen.
Einzelagent
Zunächst wird die Leistung des Agenten anhand der Art und Weise bewertet, wie er Gegenstände in Minecraft erwirbt.
Die Forscher stellten 25 Agenten auf, die zu Beginn leer waren und die Orte, an denen sie geboren wurden, nicht miteinander kommunizieren konnten. Diese Agenten waren alle darauf eingestellt, Gegenstände zu erkunden und zu sammeln.
Sie werden an verschiedenen Orten geboren, beispielsweise an der Oberfläche, in Höhlen, Wäldern oder anderen Umgebungen. Unterschiedliche Spawnpunkte bedeuten, dass sie über unterschiedliche Ressourcen verfügen und auch die Schwierigkeit, das Ziel des Sammelns von Gegenständen zu erreichen, unterschiedlich ist.
Beispielsweise verfügt ein Agent, der an der Oberfläche geboren wurde, wo es viele Ressourcen gibt, möglicherweise über viele grundlegende Materialien wie Holz und Stein, die leicht zur Herstellung grundlegender Werkzeuge verwendet werden können, ein Agent, der in einer Höhle geboren wurde, verfügt jedoch möglicherweise über viele grundlegende Materialien Mineralien, aber es gibt auch Dunkelheit, Monster usw. Gefährlich, und man muss draußen erkunden, um mehr Dinge zu finden.
Forscher fanden heraus, dass nach 30-minütigem Spielen mit einem Agenten mit einer vollständigen PIANO-Architektur durchschnittlich 17 verschiedene Gegenstände erhalten werden konnten. Allerdings schwanken ihre Leistungen stark, vor allem aufgrund der unterschiedlichen Geburtsposition.
Einige Agenten können nur weniger als 5 Gegenstände erhalten, während die leistungsstärksten Agenten 30–40 Gegenstände erhalten können, was fast dem gleichen Wert entspricht wie menschliche Spieler mit etwas Erfahrung in „Minecraft“.
Was ist also die Obergrenze für die Entwicklung eines einzelnen Wirkstoffs?
Die Forscher fanden heraus, dass sie unter den gleichen Bedingungen die Anzahl der Agenten auf 49 erhöhten und sie vier Stunden lang spielen ließen. Nach vielen Experimenten wurde festgestellt, dass sich die Anzahl der von allen Agenten gesammelten unterschiedlichen Gegenstände bei einem Drittel aller Gegenstände in „Minecraft“ (ca. 320 Gegenstände) stabilisiert hat.
Multi-Agent
Multi-Agent ist, wie der Name schon sagt, eine Gruppe mehrerer Agenten, die in derselben Umgebung miteinander kommunizieren oder konkurrieren können.
Kleine Gruppen:
Damit Agenten in einer Gruppe zusammenarbeiten und sich entwickeln können, müssen sie in der Lage sein, die Handlungen und Gedanken anderer Agenten zu verstehen. Diese Fähigkeit, sowohl sich selbst als auch andere zu verstehen, ermöglicht es den Agenten, ihr Verhalten an die Situation in einem sozialen Umfeld anzupassen .
Bauen Sie beispielsweise Vertrauen auf, wenn Sie mit Verbündeten zusammenarbeiten, und gehen Sie mit Konkurrenz und Konflikten um, wenn Sie mit Gegnern auskommen. Forscher fanden durch Experimente heraus, dass Agenten nicht nur sozial fähig sind, sondern in groß angelegten Simulationen mit bis zu 50 Agenten sinnvolle soziale Beziehungen aufbauen können.
Die Forscher untersuchten hauptsächlich die Rolle und das Bewusstsein des Agenten in der Gruppe durch zwei Versuchsreihen.
-Können sozialbewusste Agenten durch Chats auf die Emotionen anderer Menschen schließen?
Im Chat-Experiment zwischen drei Charakteren und dem Agenten in „Minecraft“ ist zu erkennen, dass der Agent diese emotionalen Veränderungen vollständig verstehen und reagieren kann, wenn die Charaktere im Spiel emotionale Veränderungen wie Liebe-Zorn-Liebe zum Ausdruck bringen entsprechend.
-Kann der Agent Emotionen spüren und entsprechend handeln?
In einem anderen Experiment wurde das Verhalten eines Agenten dadurch abgeleitet, wie sehr der Charakter im Spiel denselben Agenten mochte oder nicht mochte. Die Forscher fanden heraus, dass der Agent nicht nur die Absichten des Spielcharakters genau erschloss, sondern auch Absichten nutzte, um seine Absichten zu verwirklichen eigene Entscheidungen beim Treffen von Entscheidungen.
Gesellschaft:
Anschließend platzierten die Forscher 50 Agenten in einer zufällig generierten Karte von „Minecraft“ und gaben jedem Agenten eine einzigartige Persönlichkeit. Sie können sich frei in dieser Welt bewegen und nach Belieben mit anderen Agenten kommunizieren.
In diesem freien Szenario stellten die Forscher fest, dass der Agent nicht nur die Rollen anderer Agenten genau beurteilen konnte, sondern dass das Urteil umso genauer war, je mehr Agenten an der Beurteilung beteiligt waren und je länger sie kommunizierten.
Darüber hinaus entdeckten die Forscher in diesem Experiment auch mehrere wichtige Phänomene:
-Die Bedeutung sozialer Module:
Wenn das soziale Modul entfernt wird, ist die Beziehung zwischen den Agenten zu diesem Zeitpunkt relativ flach, was zeigt, dass das soziale Modul für die Entwicklung langfristiger Beziehungen (sei es eine gute oder eine schlechte Richtung) sehr wichtig ist.
-Der Einfluss der Persönlichkeit auf soziale Netzwerke:
Die Forscher fanden heraus, dass einige Agenten aufgrund ihrer Persönlichkeit unterschiedliche soziale Verbindungsmuster hatten.
So erhalten introvertierte Agenten deutlich weniger Kontakte als extrovertierte Sozialagenten, was zeigt, dass sich Persönlichkeit auch in großen und komplexen sozialen Netzwerken widerspiegeln kann.
Und obwohl die Emotionen meistens auf Gegenseitigkeit beruhen, ist das nicht immer so. Ein Agent hat möglicherweise eine positive Meinung über einen anderen Agenten, der diese ignoriert, genau wie in der realen Welt, in der zwischenmenschliche Beziehungen komplex sind und nicht immer auf Gegenseitigkeit beruhen.
Die Zivilisation ist geboren
Nach der Entwicklung vom Einzelagenten zum Multiagenten ist der nächste Schritt die Geburt der Zivilisation.
Um die Fähigkeit der Agenten zu beurteilen, die Zivilisation voranzubringen, bewerteten die Forscher, wie sie sich in verschiedenen Situationen verhielten:
– Verhalten von Agenten nach kollektiven Regeln (mit Schwerpunkt auf Einhaltung und Überarbeitung von Steuergesetzen)
– Entdecken Sie kulturelle Kommunikation durch die spontane Generierung von Memes und die strukturierte Kommunikation einzelner Religionen
Jeder nimmt seine Aufgaben wahr und ist auf Arbeitsteilung spezialisiert
Es ist die spezialisierte Arbeitsteilung der Menschen, die den Fortschritt der Zivilisation vorantreibt und den Fortschritt in Landwirtschaft, Regierungsführung, Kultur und Technologie fördert. Um diese aufkommenden zivilisatorischen Qualitäten zu reproduzieren, sollten Agenten sie auch besitzen.
Zu diesem Zweck schlägt der Autor drei grundlegende Standards für die Agentenspezialisierung vor:
Erstens: Autonomie bei der Rollenauswahl und beim Rollenwechsel. Zweitens sollte ihre Spezialisierung durch Interaktion und Erfahrung ohne klare Anweisungen und Einschränkungen nachgewiesen werden. Schließlich sollten sich die von ihnen gewählten Rollen in Verhaltensweisen widerspiegeln, die mit ihrem Beruf vereinbar sind.
Wie in der folgenden Abbildung dargestellt, setzen Forscher intelligente Agenten in ein Dorf ein, und diese entwickeln selbstständig verschiedene Berufe, beispielsweise Landwirte und Ingenieure.
Der Verlust des sozialen Bewusstseins führt dazu, dass Agenten homogenere Rollen wählen, die nicht über die Zeit bestehen bleiben.
Das Folgende ist die simulierte Verteilung des Verhaltens von 30 Agenten in einem Dorf.
Steuergesetze einhalten, Gesetze ändern
Können KI-Agenten ihre eigenen Gesetze erlassen und ändern?
Als nächstes testeten die Forscher den Wirkstoff, indem sie ein Steuersystem implementierten. Es wurde festgestellt, dass sie nicht nur die Steuergesetze einhielten, sondern auch demokratisch für eine Änderung der Steuersätze auf der Grundlage der öffentlichen Meinung stimmten.
Die religiöse Verbreitung variiert von Stadt zu Stadt
Können KI-Agenten schließlich ihre eigene Kultur entwickeln?
Die Forscher untersuchten insbesondere die organische Verbreitung von Memes und verfolgten, wie Agenten eine fiktive Religion bildeten und sich über Agentenverbände verbreiteten.
Noch interessanter ist, dass ländliche Gebiete und Städte unterschiedliche kulturelle Muster aufweisen.
Absolventen der Peking-Universität gründen ein Unternehmen, um empathische KI aufzubauen
Der Grund, warum Project Sid ins Leben gerufen wurde, liegt darin, dass das Altera AI-Team hofft, dass digitale Menschen durch die Erforschung dieser Probleme letztendlich nahtlos in die menschliche Gesellschaft integriert werden können.
Robert Yang ist Mitbegründer und CEO von Altera.
Zuvor erhielt er einen Doktortitel in Computational Neuroscience von der New York University und der Yale University sowie einen Bachelor-Abschluss in Physik von der Peking University.
Er war Professor am Department of Brain and Cognitive Sciences und am Department of Electrical Engineering and Computer Science am MIT und Leiter der MIT MetaConscious-Gruppe.
Im Jahr 2023 schloss er sein Labor und gab seine Tenure-Track-Stelle am MIT auf, um Altera zu gründen.
Obwohl das Team von Altera klein ist, ist die Talentdichte extrem hoch –
Es besteht aus Computer-Neurowissenschaftlern, Physikolympiaden und Ingenieuren der Fakultät für Elektrotechnik und Informatik des MIT, der Natural Language Processing Group von Stanford, Google X, Citadel, Supercell und anderen.
Das vor mehr als einem halben Jahr gegründete Unternehmen erhielt zu Beginn des Jahres unter der Leitung von Andreessen Horowitz eine Seed-Finanzierung in Höhe von 2 Millionen US-Dollar.
Drei Monate später sammelte das Unternehmen weitere 9 Millionen US-Dollar ein, angeführt von First Spark Ventures des ehemaligen Google-CEO Eric Schmidt, Patron VC, Angel-Investor Mitch Lasky und anderen.
Im Mai dieses Jahres eröffnete Altera eine Niederlassung in Menlo Park und hat sich zum Ziel gesetzt, der erste Anbieter intelligenter Verbraucherprodukte zu werden.