Der Herausgeber von Downcodes erfuhr, dass Google seine Gemini-KI nutzt, um die Roboternavigation und die Aufgabenausführungsfähigkeiten zu verbessern. Die neuesten Untersuchungen des DeepMind-Teams zeigen, dass die Funktion des langen Kontextfensters von Gemini 1.5 Pro die Interaktion in natürlicher Sprache zwischen Benutzern und dem RT-2-Roboter erheblich verbessert. Dieser technologische Durchbruch ermöglicht es Robotern, die Umgebung zu verstehen, indem sie sich Videos ansehen und komplexe Aufgaben erledigen, wie beispielsweise das Führen von Benutzern zu Steckdosen zum Aufladen entsprechend den Anweisungen, was das enorme Potenzial künstlicher Intelligenz im Bereich der Robotik demonstriert.
Google trainiert seine Roboter mit Gemini AI, um die Navigation und Aufgabenerledigung zu verbessern.
In einem neuen Forschungspapier erklärt das DeepMind Robotics-Team ausführlich, wie das lange Kontextfenster von Gemini1.5Pro genutzt werden kann, um Benutzern die Interaktion mit dem RT-2-Roboter mithilfe von Anweisungen in natürlicher Sprache zu erleichtern. Indem sie einen Videorundgang durch einen bestimmten Bereich machten, verwendeten die Forscher Gemini1.5Pro, um dem Roboter die Möglichkeit zu geben, das Video „anzusehen“, um die Umgebung zu verstehen, sodass der Roboter Befehle basierend auf dem, was er beobachtete, ausführen konnte, beispielsweise den Benutzer zu einer Kraft führen Steckdose zum Aufladen.
Laut DeepMind hat der mit Gemini ausgestattete Roboter mehr als 50 Benutzeranweisungen auf einer Betriebsfläche von mehr als 9.000 Quadratfuß erfolgreich ausgeführt, mit einer Erfolgsquote von 90 %.
Darüber hinaus fanden die Forscher auch heraus, dass Gemini1.5Pro es dem Roboter ermöglicht, zu planen, wie Anweisungen ausgeführt werden sollen, und nicht nur die Navigation. Wenn beispielsweise ein Benutzer mit vielen Coladosen auf seinem Schreibtisch den Roboter fragt, ob sein Lieblingsgetränk verfügbar ist, teilt Gemini dem Roboter mit, dass er zum Kühlschrank gehen soll, um nachzuschauen, und meldet die Ergebnisse dann an den Benutzer zurück. DeepMind sagte, es werde diese Ergebnisse weiter untersuchen.
Während die von Google bereitgestellte Videodemonstration beeindruckend ist, dauert es laut Forschungsbericht 10 bis 30 Sekunden, bis der Roboter diese Anweisungen verarbeitet. Auch wenn es noch einige Zeit dauern wird, bis wir unsere Häuser mit fortschrittlicheren Umweltkartierungsrobotern teilen, könnten uns diese Roboter zumindest dabei helfen, unsere verlorenen Schlüssel oder Geldbörsen zu finden.
Highlight:
Gemini AI trainiert Roboter, um die Navigations- und Aufgabenerledigungsfähigkeiten zu verbessern
? Gemini1.5Pro ermöglicht es Robotern, Anweisungen in natürlicher Sprache auszuführen
Gemini ermöglicht es Robotern, Anweisungen zu planen und auszuführen, die über die Navigation hinausgehen, heißt es in einer Studie
Dieses Forschungsergebnis kündigt die rasante Entwicklung der Robotertechnologie in der Zukunft an. Der Einsatz der Gemini-KI wird das Intelligenzniveau von Robotern erheblich verbessern und es ihnen ermöglichen, dem menschlichen Leben besser zu dienen. Obwohl es immer noch einige technische Engpässe gibt, glaube ich, dass in naher Zukunft fortschrittlichere Roboter in unser Leben eintreten und uns mehr Komfort bringen werden. Der Herausgeber von Downcodes wird die neuesten Entwicklungen in diesem Bereich weiterhin aufmerksam verfolgen.