Das Microsoft-Forschungsteam hat eine neue Technologie für künstliche Intelligenz veröffentlicht – das Large Action Model (LAM), das Windows-Programme autonom betreiben kann und damit eine neue Stufe der KI markiert, die von einfachen Dialogen und Vorschlägen zur tatsächlichen Aufgabenausführung übergeht. Im Gegensatz zu herkömmlichen Sprachmodellen kann LAM eine Vielzahl von Eingaben wie Text, Sprache und Bilder verstehen und in detaillierte Aktionspläne umwandeln. Es kann sogar Strategien basierend auf Echtzeitsituationen anpassen, um einige Probleme zu lösen, die andere KI-Systeme nicht bewältigen können mit. Diese bahnbrechende Technologie bietet umfassendere Möglichkeiten für KI in praktischen Anwendungen und weist den Weg für die Entwicklung zukünftiger Assistenten für künstliche Intelligenz.
Das Forschungsteam von Microsoft hat kürzlich eine Technologie für künstliche Intelligenz namens „Large Action Model“ (LAM) auf den Markt gebracht und damit eine neue Stufe in der Entwicklung der KI markiert. Im Gegensatz zu herkömmlichen Sprachmodellen wie GPT-4o kann LAM Windows-Programme autonom betreiben, was bedeutet, dass KI nicht nur sprechen oder Vorschläge machen, sondern tatsächlich Aufgaben ausführen kann.
Die Stärke von LAM liegt in seiner Fähigkeit, eine Vielzahl von Benutzereingaben, einschließlich Text, Sprache und Bildern, zu verstehen und diese Anfragen dann in detaillierte Schritt-für-Schritt-Pläne zu übersetzen. LAM entwickelt nicht nur Pläne, sondern passt seine Handlungsstrategien auch an die Echtzeitbedingungen an. Der Prozess des Aufbaus eines LAM ist im Wesentlichen in vier Schritte unterteilt: Zuerst lernt das Modell, die Aufgabe in logische Schritte zu unterteilen, dann lernt es durch fortgeschrittenere KI-Systeme (wie GPT-4o), wie es diese Pläne umsetzt Spezifische Aktionen; dann wird das LAM selbstständig neue Lösungen erforschen und sogar Probleme lösen, die andere KI-Systeme schließlich nicht bewältigen können, und schließlich das Training durch einen Belohnungsmechanismus verfeinern;
Im Experiment baute das Forschungsteam ein LAM-Modell auf Basis von Mistral-7B auf und testete es in der Word-Testumgebung. Die Ergebnisse zeigten, dass das Modell die Aufgabe in 71 % der Fälle erfolgreich erledigte, verglichen mit 63 % bei GPT-4o ohne visuelle Informationen.
Darüber hinaus schneidet LAM auch bei der Geschwindigkeit der Aufgabenausführung gut ab: Jede Aufgabe dauert nur 30 Sekunden, während GPT-4o 86 Sekunden benötigt. Obwohl die Erfolgsquote von GPT-4o bei der Verarbeitung visueller Informationen auf 75,5 % steigt, weist LAM insgesamt deutliche Vorteile in Bezug auf Geschwindigkeit und Wirkung auf.
Um die Trainingsdaten zu erstellen, sammelte das Forschungsteam zunächst 29.000 Beispiele für Aufgaben- und Planpaare aus Microsoft-Dokumenten, WikiHow-Artikeln und Bing-Suchen. Anschließend nutzten sie GPT-4o, um einfache Aufgaben in komplexe Aufgaben umzuwandeln, wodurch der Datensatz auf 76.000 Paare erweitert wurde, was einer Steigerung von 150 % entspricht. Letztendlich flossen etwa 2.000 erfolgreiche Actionsequenzen in das endgültige Trainingsset ein.
Obwohl LAM sein Potenzial in der KI-Entwicklung unter Beweis gestellt hat, steht das Forschungsteam immer noch vor einigen Herausforderungen, wie etwa dem Problem möglicher Fehler bei KI-Aktionen, regulatorischen Problemen und technischen Einschränkungen bei der Skalierung und Anpassung in verschiedenen Anwendungen. Forscher glauben jedoch, dass LAM einen wichtigen Wandel in der Entwicklung der KI darstellt, was darauf hindeutet, dass Assistenten mit künstlicher Intelligenz Menschen aktiver bei der Erledigung praktischer Aufgaben unterstützen können.
Höhepunkte:
LAM kann Windows-Programme autonom ausführen und damit die Einschränkungen der herkömmlichen KI durchbrechen, die nur sprechen kann.
⏱ Im Word-Test erreichte LAM eine Wahrscheinlichkeit von 71 %, die Aufgabe erfolgreich abzuschließen, was höher ist als die von GPT-4o mit 63 %, und die Ausführungsgeschwindigkeit ist schneller.
Das Forschungsteam nutzte eine Datenerweiterungsstrategie, um die Anzahl der Missionsplanpaare auf 76.000 Paare zu erhöhen und so den Trainingseffekt des Modells weiter zu verbessern.
Das Aufkommen von LAM läutet den Wandel der künstlichen Intelligenz vom Informationsanbieter zum tatsächlichen Aktionsausführer ein und bringt revolutionäre Veränderungen für die zukünftige Mensch-Computer-Interaktion und automatisierte Büros mit sich. Obwohl LAM noch vor Herausforderungen steht, verfügt es über großes Potenzial und es lohnt sich, auf seine breite Anwendung und Weiterentwicklung in verschiedenen Bereichen zu blicken.