Der Herausgeber von Downcodes erfuhr, dass das Forschungsteam von NVIDIA einen großen Durchbruch erzielt und ein neues neuronales Netzwerk namens HOVER (Humanoid Multi-Function Controller) entwickelt hat. Dieses neuronale Netzwerk verfügt nur über 1,5 Millionen Parameter, kann aber die Bewegung und den Betrieb humanoider Roboter effizient koordinieren. Seine effiziente Trainingsmethode und seine leistungsstarken Funktionen sind ein Hingucker. Das Aufkommen von HOVER markiert einen großen Fortschritt in der Steuerungstechnologie für humanoide Roboter und bietet neue Möglichkeiten für die Entwicklung zukünftiger Robotertechnologie.
Jim Fan, leitender Forschungsmanager bei NVIDIA, sagte: „Nicht alle Basismodelle müssen riesig sein. Das von uns trainierte neuronale Netzwerk mit 1,5 Millionen Parametern ist darauf ausgelegt, den Körper eines humanoiden Roboters zu steuern.“ Er erklärte weiter, dass HOVER menschliche Bewegungen erfassen kann unbewusste Prozesse, sodass Roboter komplexe Aufgaben ohne umständliche Programmierung ausführen können. Er erwähnte: „Menschen benötigen viel unbewusste Verarbeitung, wenn sie gehen, das Gleichgewicht halten und ihre Gliedmaßen flexibel kontrollieren.“
Während des Trainingsprozesses nutzte HOVER die Isaac-Simulationsplattform von NVIDIA, die die physikalische Simulation 10.000-mal schneller als in Echtzeit beschleunigen kann.
Jim Fan enthüllte, dass das Training dieses Modells in einer virtuellen Umgebung ein Jahr dauerte und tatsächlich nur etwa 50 Minuten Echtzeit in Anspruch nahm, was auf einer einzelnen GPU abgeschlossen wurde. Er sagte, dass dieses effiziente Training eine reibungslose Übertragung des neuronalen Netzwerks auf reale Anwendungen ermögliche, ohne dass eine Feinabstimmung erforderlich sei.
HOVER ist in der Lage, auf eine Vielzahl von Bewegungsbefehlen auf hoher Ebene zu reagieren, einschließlich der Verwendung von XR-Geräten (wie Vision Pro von Apple) zur Steuerung der Kopf- und Handhaltung oder der Erlangung einer Ganzkörperhaltung durch Bewegungserfassung und RGB-Kameras und sogar der Erfassung Gelenke aus dem Winkel des Exoskeletts oder erhalten Sie den Befehl zur Grundgeschwindigkeit vom Joystick. Fan betonte, dass HOVER eine einheitliche Schnittstelle für Roboter bietet, die verschiedene Eingabegeräte steuern, und dadurch die Erfassung von Teleoperationsdaten für das Training erleichtert.
Darüber hinaus ist HOVER in das vorgeschaltete Bild-Sprach-Aktionsmodell integriert, wodurch Bewegungsbefehle mit hoher Frequenz in motorische Signale auf niedriger Ebene umgewandelt werden können. Dieses Modell ist mit jedem humanoiden Roboter kompatibel, der in Isaac simuliert werden kann, sodass Benutzer den Roboter problemlos zum Leben erwecken können.
Bereits Anfang dieses Jahres kündigte NVIDIA außerdem ein Projekt namens GR00T an, bei dem es sich um ein allgemeines Basismodell für humanoide Roboter handelt. Von GR00T (Generalist Robot00Technology) angetriebene Roboter können natürliche Sprache verstehen und menschliche Bewegungen nachahmen, indem sie Bewegungen beobachten. Dadurch können sie schnell Koordination, Flexibilität und andere Fähigkeiten erlernen, die für eine effektive Interaktion in der realen Welt erforderlich sind.
Papier-URL: https://arxiv.org/pdf/2410.21229
Das Aufkommen von HOVER hat neue Hoffnung in den Bereich der Steuerung humanoider Roboter gebracht. Seine effizienten Trainingsmethoden und leistungsstarken Funktionen deuten darauf hin, dass die Robotertechnologie der Zukunft intelligenter und humaner sein wird. Dieser technologische Durchbruch wird den Einsatz humanoider Roboter in verschiedenen Bereichen erheblich vorantreiben. Wir freuen uns auf weitere spannende Entwicklungen in der Zukunft!