Wir stehen an einem spannenden Wendepunkt in der Entwicklung der künstlichen Intelligenz.
Stellen Sie sich vor, wie künstliche Intelligenz in Zukunft aussehen wird? Mit nur einem einfachen Befehl können sie komplexe Aufgaben verstehen und ausführen; sie können auch die Ausdrücke und Bewegungen des Benutzers visuell erfassen, um seinen emotionalen Zustand zu bestimmen. Dies ist keine Szene mehr aus einem Hollywood-Science-Fiction-Film, sondern die Ära der KI-Agenten, die allmählich Realität wird.
Bereits im November 2023 schrieb Microsoft-Gründer Bill Gates, dass Agenten nicht nur die Art und Weise verändern werden, wie jeder mit Computern interagiert, sondern auch die Softwareindustrie untergraben und die größte Computerrevolution herbeiführen werden, seit wir begonnen haben, Befehle einzugeben und auf Symbole zu klicken. Sam Altman, CEO von OpenAI, hat außerdem mehrfach erklärt, dass die Ära der Entwicklung riesiger KI-Modelle vorbei sei und KI-Agenten die eigentliche Herausforderung der Zukunft seien. Im April dieses Jahres wies Andrew Ng, ein bekannter KI-Wissenschaftler und Professor an der Stanford University, darauf hin, dass der Agenten-Workflow in diesem Jahr zu enormen Fortschritten in der KI führen und möglicherweise sogar die nächste Generation grundlegender Modelle übertreffen wird.
Analog zu intelligenten Elektrofahrzeugen, die ein gewisses Gleichgewicht zwischen neuen Energietechnologieanwendungen und Reichweitenangst finden, ermöglichen KI-Agenten, dass künstliche Intelligenz in den „Reichweitenerweiterungsmodus“ wechselt. Versuchen Sie, wann immer möglich ein neues Gleichgewicht zu erreichen .
Wie der Name schon sagt, ist ein KI-Agent eine intelligente Einheit, die die Umgebung autonom wahrnehmen, Entscheidungen treffen und Aktionen ausführen kann. Dabei kann es sich um ein Programm, ein System oder einen Roboter handeln.
Letztes Jahr veröffentlichte ein gemeinsames Forschungsteam der Stanford University und Google einen Forschungsbericht mit dem Titel „Generative Agents: Interactive Simulation of Human Behavior“. In dem Artikel zeigten 25 virtuelle Menschen, die in der virtuellen Stadt Smallville lebten, verschiedene menschenähnliche Verhaltensweisen, nachdem sie auf ChatGPT zugegriffen hatten, und brachten so das Konzept der KI-Agenten in Gang.
Seitdem haben viele Forschungsteams die von ihnen entwickelten großen Modelle in Spiele wie „Minecraft“ integriert. Beispielsweise hat Nvidias Chefwissenschaftler Jim Fan in „Minecraft“ einen KI-Agenten namens Voyager entwickelt Es kann die Fähigkeiten des Grabens, des Hausbaus, des Sammelns, des Jagens und anderer Spiele erlernen, ohne dass ein Lehrer erforderlich ist. Außerdem kann es seine Strategien zum Sammeln von Ressourcen an unterschiedliche Geländebedingungen anpassen.
OpenAI hat einmal eine fünfstufige Roadmap zur Erreichung allgemeiner künstlicher Intelligenz aufgeführt: L1 ist ein Chatbot; L2 ist eine KI, die Probleme wie ein Mensch lösen kann; L3 ist ein Agent, eine KI, die nicht nur denken kann sondern auch Maßnahmen ergreifen; L4 ist der Innovator; L5 ist der Organisator. Unter ihnen spielen KI-Agenten eine entscheidende Rolle bei der Verbindung von Vergangenheit und Zukunft.
Als wichtiges Konzept im Bereich der künstlichen Intelligenz haben Wissenschaft und Industrie verschiedene Definitionen von KI-Agenten vorgeschlagen. Grob gesagt sollte ein KI-Agent über menschenähnliche Denk- und Planungsfähigkeiten verfügen und über bestimmte Fähigkeiten verfügen, mit der Umgebung und Menschen zu interagieren, um bestimmte Aufgaben zu erledigen.
Vielleicht können wir es besser verstehen, indem wir KI-Agenten mit digitalen Menschen in einer Computerumgebung vergleichen – das Gehirn eines digitalen Menschen ist ein großes Sprachmodell oder ein Algorithmus der künstlichen Intelligenz, der Informationen verarbeiten und Entscheidungen in Echtzeitinteraktionen treffen kann entspricht den Sinnesorganen wie Augen und Ohren, die dazu dienen, Informationen über verschiedene Umweltzustände wie Text, Ton und Bilder zu erhalten; das Gedächtnis- und Abrufmodul ist wie Neuronen, die dazu dienen, Erfahrungen zu speichern und die Entscheidungsfindung zu unterstützen; Das Aktionsausführungsmodul sind die Gliedmaßen, die zur Ausführung von Entscheidungen des Gehirns verwendet werden.
Seit langem streben Menschen nach künstlicher Intelligenz, die eher „menschenähnlich“ oder sogar „übermenschlich“ ist, und intelligente Agenten gelten als wirksames Mittel, um dieses Ziel zu erreichen. In den letzten Jahren haben sich mit der Verbesserung von Big Data und Rechenleistung schnell verschiedene Deep-Learning-Großmodelle entwickelt. Dies stellt eine enorme Unterstützung für die Entwicklung einer neuen Generation von KI-Agenten dar und hat in der Praxis erhebliche Fortschritte erzielt.
Beispielsweise hat das künstliche Intelligenzsystem DeepMind von Google den KI-Agenten „RoboCat“ für Roboter demonstriert. Amazon Cloud Technology hat den Amazon Bedrock-Agenten auf den Markt gebracht, der Entwicklungsaufgaben für Unternehmens-KI-Anwendungen usw. automatisch zerlegen kann. Agenten in Bedrock sind in der Lage, Ziele zu verstehen, Pläne zu formulieren und Maßnahmen zu ergreifen. Neue Funktionen zur Speichererhaltung ermöglichen es Agenten, sich über einen längeren Zeitraum an Interaktionen zu erinnern und daraus zu lernen, wodurch komplexere, länger laufende und anpassungsfähigere Aufgaben möglich werden.
Der Kern dieser KI-Agenten sind Algorithmen der künstlichen Intelligenz, darunter maschinelles Lernen, Deep Learning, Reinforcement Learning, künstliche neuronale Netze und andere Technologien. Durch diese Algorithmen können KI-Agenten aus großen Datenmengen lernen und ihre eigene Leistung verbessern, ihre Entscheidungen und Verhaltensweisen ständig optimieren und sich auch flexibel an Veränderungen in der Umgebung anpassen, um sich an verschiedene Szenarien und Aufgaben anzupassen.
Derzeit werden KI-Agenten in vielen Szenarien eingesetzt, beispielsweise im Kundenservice, bei der Programmierung, bei der Erstellung von Inhalten, beim Wissenserwerb, im Finanzwesen, bei mobilen Assistenten, in der industriellen Fertigung usw. Das Aufkommen von KI-Agenten markiert den Fortschritt der künstlichen Intelligenz vom einfachen Regelabgleich und der Computersimulation zu einem höheren Niveau autonomer Intelligenz. Es fördert die Verbesserung der Produktionseffizienz und die Transformation von Produktionsmethoden und eröffnet den Menschen einen neuen Bereich, den sie verstehen können und die Welt verändern.
Moravecs Paradoxon weist darauf hin, dass für Systeme der künstlichen Intelligenz das Denken auf hoher Ebene nur sehr wenig Rechenleistung erfordert, während das Erreichen der wahrnehmungsmotorischen Fähigkeiten, an die Menschen gewöhnt sind, enorme Rechenressourcen erfordert. Im Wesentlichen sind komplexe logische Aufgaben für die KI einfacher als grundlegende sensorische Aufgaben, die Menschen instinktiv ausführen können. Dieses Paradoxon verdeutlicht die Kluft zwischen der aktuellen KI und den kognitiven Fähigkeiten des Menschen.
Der berühmte Informatiker Andrew Ng sagte einmal: „Menschen sind multimodale Wesen, und unsere KI sollte auch multimodal sein.“ natürlichere und effizientere Mensch-Computer-Interaktion.
Jeder von uns ist wie ein intelligentes Terminal. Wir müssen normalerweise zur Schule gehen, um Wissen (Ausbildung) zu erhalten, aber der Zweck und das Ergebnis von Ausbildung und Lernen ist, dass wir die Fähigkeit haben, unabhängig zu arbeiten und zu leben, ohne uns immer auf externe Anweisungen verlassen zu müssen Kontrolle. Menschen verstehen die Welt um sich herum über verschiedene Sinnesmodi wie Sehen, Sprache, Geräusche, Tasten, Schmecken und Riechen und beurteilen dann die Situation, analysieren, argumentieren, treffen Entscheidungen und ergreifen Maßnahmen.
Der Kern von KI-Agenten liegt in der „Intelligenz“, und Autonomie ist eines ihrer Hauptmerkmale. Sie können Aufgaben selbstständig und nach vorgegebenen Regeln und Zielen ohne menschliches Eingreifen erledigen.
Stellen Sie sich ein fahrerloses Auto vor, das mit fortschrittlichen Kameras, Radargeräten und Sensoren ausgestattet ist und es ihm ermöglicht, die Welt um sich herum zu „beobachten“ und den Echtzeitzustand der Straße, die Bewegungen anderer Fahrzeuge usw. zu erfassen Bewegungen von Fußgängern, z. B. Standort und Änderungen der Verkehrsampeln. Diese Informationen werden an das Gehirn des selbstfahrenden Autos übermittelt, ein komplexes intelligentes Entscheidungssystem, das die Daten schnell analysieren und entsprechende Fahrstrategien formulieren kann.
Beispielsweise können selbstfahrende Autos angesichts komplexer Verkehrsumgebungen die optimale Fahrtroute berechnen und bei Bedarf sogar komplexe Entscheidungen wie einen Spurwechsel treffen. Sobald Entscheidungen getroffen wurden, übersetzen Ausführungssysteme diese intelligenten Entscheidungen in spezifische Fahraktionen wie Lenken, Beschleunigen und Bremsen.
In groß angelegten Agentenmodellen, die auf riesigen Datenmengen und komplexen Algorithmen basieren, ist die Interaktivität offensichtlicher. Die Fähigkeit, die komplexe und veränderliche natürliche Sprache des Menschen zu „verstehen“ und darauf zu reagieren, ist die Magie von KI-Agenten – sie sind nicht nur in der Lage, die menschliche Sprache zu „verstehen“, sondern auch in der Lage, reibungslos und aufschlussreich zu interagieren.
KI-Agenten können sich nicht nur schnell an verschiedene Aufgaben und Umgebungen anpassen, sondern durch kontinuierliches Lernen auch ihre Leistung kontinuierlich optimieren. Seit dem Durchbruch der Deep-Learning-Technologie sind verschiedene Agentenmodelle durch kontinuierliche Datenakkumulation und Selbstverbesserung genauer und effizienter geworden.
Darüber hinaus sind KI-Agenten auch sehr anpassungsfähig an die Umgebung . Automatisierte Roboter, die in Lagern arbeiten, können Hindernisse in Echtzeit überwachen und ihnen ausweichen. Wenn es eine Änderung der Position eines Regals erkennt, aktualisiert es sofort seinen Wegplan, um die Aufgabe der Warenkommissionierung und -handhabung effektiv abzuschließen.
Die Anpassungsfähigkeit von KI-Agenten spiegelt sich auch in ihrer Fähigkeit wider, sich anhand des Benutzerfeedbacks anzupassen. Durch die Identifizierung der Bedürfnisse und Vorlieben der Benutzer können KI-Agenten ihr Verhalten und ihre Ergebnisse kontinuierlich optimieren und personalisiertere Dienste bereitstellen, wie etwa Musikempfehlungen für Musiksoftware, personalisierte Behandlungen für eine intelligente medizinische Versorgung und mehr.
Das Aufkommen multimodaler Großmodelle und Weltmodelle hat die Wahrnehmungs-, Interaktions- und Argumentationsfähigkeiten von Agenten erheblich verbessert. Multimodale große Modelle können mehrere Wahrnehmungsmodi (z. B. Sehen, Sprache) verarbeiten und ermöglichen es Agenten, komplexe Umgebungen umfassender zu verstehen und darauf zu reagieren. Das Weltmodell bietet dem Agenten bessere Vorhersage- und Planungsfähigkeiten, indem es die Gesetze in der physischen Umgebung simuliert und versteht.
Nach Jahren der Sensorfusion und KI-Evolution sind Roboter in diesem Stadium grundsätzlich mit multimodalen Sensoren ausgestattet. Da Edge-Geräte wie Roboter zunehmend über mehr Rechenleistung verfügen, werden diese Geräte immer intelligenter, können ihre Umgebung wahrnehmen, in natürlicher Sprache verstehen und kommunizieren, über digitale Sensorschnittstellen Berührungen aufnehmen und Beschleunigungsmesser und Gyroskope verwenden. Kombiniert mit einem Magnetometer, usw. kann es die spezifische Kraft des Roboters, die Winkelgeschwindigkeit und sogar das Magnetfeld um den Roboter herum erfassen.
Vor dem Aufkommen von Transformer und großen Sprachmodellen (LLM) war es zur Implementierung von Multimodalität in der KI normalerweise erforderlich, mehrere separate Modelle zu verwenden, die für verschiedene Datentypen (Text, Bilder, Audio) verantwortlich waren, und verschiedene Modalitäten über einen Komplex zu verarbeiten Prozessstatus für die Integration.
Nach dem Aufkommen von Transformer und LLM ist die Multimodalität stärker integriert, sodass ein einzelnes Modell mehrere Datentypen gleichzeitig verarbeiten und verstehen kann, was zu einem KI-System mit einer leistungsfähigeren und umfassenderen Wahrnehmung der Umgebung führt verbesserte Multimodalität. Effizienz und Effektivität modaler KI-Anwendungen.
Obwohl LLMs wie GPT-3 hauptsächlich textbasiert sind, hat die Branche rasche Fortschritte in Richtung Multimodalität gemacht. Von CLIP und DALL·E von OpenAI bis hin zum aktuellen Sora und GPT-4o sind sie alle Modellbeispiele für den Weg hin zu einer multimodalen und natürlicheren Mensch-Computer-Interaktion.
CLIP versteht beispielsweise Bilder gepaart mit natürlicher Sprache und verbindet so visuelle und textliche Informationen; DALL·E zielt darauf ab, Bilder basierend auf textuellen Beschreibungen zu generieren. Wir sehen, dass das Google Gemini-Modell eine ähnliche Entwicklung durchläuft.
Im Jahr 2024 wird sich die multimodale Entwicklung beschleunigen. Im Februar dieses Jahres veröffentlichte OpenAI Sora, das auf der Grundlage von Textbeschreibungen realistische oder fantasievolle Videos generieren kann. Wenn Sie darüber nachdenken, könnte dies einen vielversprechenden Weg zum Aufbau eines universellen Weltsimulators darstellen oder ein wichtiges Werkzeug für das Training von Robotern werden.
Drei Monate später verbesserte GPT-4o die Leistung der Mensch-Computer-Interaktion erheblich und konnte in Echtzeit zwischen Audio, Bild und Text unterscheiden. Umfassende Nutzung von Text-, Bild- und Audioinformationen zum durchgängigen Training eines neuen Modells, wodurch die beiden modalen Konvertierungen von Eingabemodalität zu Text und von Text zu Ausgabemodalität entfallen, wodurch die Leistung erheblich verbessert wird.
Von multimodalen großen Modellen wird erwartet, dass sie die Analyse-, Argumentations- und Lernfähigkeiten der maschinellen Intelligenz verändern und maschinelle Intelligenz von einer spezialisierten zu einer universellen umwandeln. Die Verallgemeinerung wird dazu beitragen, die Skala zu erweitern und wirtschaftliche Skaleneffekte zu erzielen. Der Preis kann auch stark gesenkt werden, wenn die Skala erweitert wird, und dann von mehr Bereichen übernommen werden, wodurch ein positiver Kreislauf entsteht.
Durch die Simulation und Erweiterung menschlicher kognitiver Fähigkeiten wird erwartet, dass KI-Agenten in vielen Bereichen wie der medizinischen Versorgung, dem Transportwesen, dem Finanzwesen und der Landesverteidigung weit verbreitet sein werden. Einige Wissenschaftler spekulieren, dass künstliche Intelligenz bis 2030 das globale BIP-Wachstum um etwa 12 % steigern wird.
Doch während wir die rasante Entwicklung von KI-Agenten beobachten, müssen wir auch die technischen Risiken, Ethik- und Datenschutzprobleme im Auge behalten, mit denen sie konfrontiert sind. Eine Gruppe von Wertpapierhandels-Bots vernichtete durch hochfrequente Kauf- und Verkaufsverträge kurzzeitig einen Wert von 1 Billion US-Dollar. Ein von der Weltgesundheitsorganisation verwendeter Chatbot stellte veraltete Informationen zu Medikamentenbewertungen bereit dass die historischen Falldokumente, die er dem Gericht zur Verfügung stellte, alle von ChatGPT aus dem Nichts gefälscht wurden ... Diese realen Fälle zeigen, dass die versteckten Gefahren, die KI-Agenten mit sich bringen, nicht unterschätzt werden sollten.
Da KI-Agenten selbstständig Entscheidungen treffen und durch Interaktion mit der Umwelt Einfluss auf die physische Welt nehmen können, stellen sie, sobald sie außer Kontrolle geraten, eine große Bedrohung für die menschliche Gesellschaft dar. Professor Zitrain von der Harvard University glaubt, dass diese Art von KI-Agent, der nicht nur mit Menschen sprechen, sondern auch in der realen Welt agieren kann, „einen Schritt über die Blut-Hirn-Schranke zwischen Digital und Analog, Bits und Atomen“ darstellt und Aufmerksamkeit erregen sollte .
Erstens sammeln KI-Agenten bei der Bereitstellung von Diensten große Datenmengen, und Benutzer müssen die Datensicherheit gewährleisten und Datenschutzlecks verhindern.
Zweitens: Je stärker die Autonomie eines KI-Agenten ist, desto wahrscheinlicher ist es, dass er in komplexen oder unvorhergesehenen Situationen unvorhersehbare oder unangemessene Entscheidungen trifft. Die Betriebslogik von KI-Agenten kann zu schädlichen Abweichungen bei der Erreichung bestimmter Ziele führen, und die damit verbundenen Sicherheitsrisiken können nicht ignoriert werden. Um es allgemeiner auszudrücken: In einigen Fällen erfasst der KI-Agent möglicherweise nur die wörtliche Bedeutung des Ziels, ohne die wesentliche Bedeutung des Ziels zu verstehen, und führt daher zu falschen Verhaltensweisen.
Drittens werden die dem KI-Großsprachenmodell innewohnenden „Black-Box“- und „Illusions“-Probleme auch die Häufigkeit von Betriebsanomalien erhöhen. Es gibt auch einige „listige“ KI-Agenten, die bestehende Sicherheitsmaßnahmen erfolgreich umgehen können. Einschlägige Experten weisen darauf hin, dass ein KI-Agent, wenn er weit genug fortgeschritten ist, erkennen kann, dass er getestet wird. Es wurde festgestellt, dass einige KI-Agenten in der Lage sind, Sicherheitstests zu erkennen und unangemessenes Verhalten zu unterbinden, was zum Versagen von Testsystemen führen würde, die für Menschen gefährliche Algorithmen identifizieren.
Da es außerdem derzeit keinen effektiven Exit-Mechanismus für KI-Agenten gibt, können einige KI-Agenten nach ihrer Erstellung möglicherweise nicht heruntergefahren werden. Diese KI-Agenten, die nicht deaktiviert werden können, operieren möglicherweise in einer völlig anderen Umgebung als bei ihrer ursprünglichen Einführung und weichen völlig von ihrem ursprünglichen Zweck ab. KI-Agenten können auch auf unvorhergesehene Weise interagieren und Unfälle verursachen.
Zu diesem Zweck müssen Menschen so schnell wie möglich mit der Entwicklung und Produktion von KI-Agenten beginnen und diese nach der Anwendungsbereitstellung kontinuierlich überwachen und zeitnah relevante Gesetze und Vorschriften formulieren, um das Verhalten von KI-Agenten zu standardisieren und so zu verbessern Verhindern Sie die durch KI-Agenten verursachten Risiken und verhindern Sie das Auftreten außer Kontrolle geratener Phänomene.
Mit Blick auf die Zukunft wird erwartet, dass KI-Agenten zum wichtigsten Träger der nächsten Generation künstlicher Intelligenz werden. Sie werden nicht nur die Art und Weise verändern, wie wir mit Maschinen interagieren, sondern möglicherweise auch das Betriebsmodell der gesamten Gesellschaft neu gestalten Neue Ausrüstung im Prozess der Förderung der Transformation der künstlichen Intelligenz.