Die Entwicklung von Deep Learning im Bereich der Robotersteuerung wird durch das Fehlen großräumiger Datenmuster begrenzt. Einem Forschungsteam der Tsinghua-Universität gelang kürzlich ein Durchbruch: Durch eine effiziente Datenerfassungsstrategie konnte es an nur einem Nachmittag genügend Daten sammeln und eine Erfolgsquote der Roboterstrategie in neuen Umgebungen und neuen Objekten erzielen. Der Herausgeber von Downcodes wird Ihnen die Ergebnisse dieser Forschung und die dahinter stehenden Datenskalierungsregeln näher bringen.
Die rasante Entwicklung des Deep Learning ist untrennbar mit umfangreichen Datensätzen, Modellen und Berechnungen verbunden. In den Bereichen Verarbeitung natürlicher Sprache und Computer Vision haben Forscher einen Potenzgesetzzusammenhang zwischen Modellleistung und Datengröße entdeckt. Im Bereich der Robotik, insbesondere der Robotersteuerung, gibt es jedoch noch keine vergleichbaren Maßstabsregeln.
Ein Forschungsteam der Tsinghua-Universität hat kürzlich einen Artikel veröffentlicht, der die Regeln der Datenskalierung beim Roboterimitationslernen untersucht und eine effiziente Datenerfassungsstrategie vorgeschlagen hat, die an nur einem Nachmittag genügend Daten sammelt, wodurch die Strategie in der Lage ist, eine Erfolgsquote von etwa 90 % bei neuen zu erreichen Umgebungen und neue Objekte.
Die Forscher unterteilten die Generalisierungsfähigkeit in zwei Dimensionen: Umgebungsgeneralisierung und Objektgeneralisierung. Sie verwendeten einen Handgreifer, um menschliche Demonstrationsdaten zu verschiedenen Umgebungen und verschiedenen Objekten zu sammeln, und modellierten diese Daten mithilfe einer Diffusionsstrategie. Die Forscher konzentrierten sich zunächst auf zwei Aufgaben: das Eingießen von Wasser und die Platzierung der Maus. Indem sie analysierten, wie sich die Leistung der Strategie in neuen Umgebungen oder neuen Objekten mit zunehmender Anzahl von Trainingsumgebungen oder Objekten ändert, fassten sie die Regeln der Datenskalierung zusammen.
Forschungsergebnisse zeigen:
Die Fähigkeit einer Richtlinie, sich auf neue Objekte, neue Umgebungen oder beides zu verallgemeinern, steht in einer Potenzgesetzbeziehung mit der Anzahl der Trainingsobjekte, Trainingsumgebungen bzw. Trainingsumgebung-Objekt-Paare.
Die Erhöhung der Vielfalt an Umgebungen und Objekten ist effektiver als die Erhöhung der Anzahl der Demonstrationen jeder Umgebung oder jedes Objekts.
Durch das Sammeln von Daten in möglichst vielen Umgebungen (z. B. 32 Umgebungen) mit einem eindeutigen Betriebsobjekt und 50 Demonstrationen in jeder Umgebung kann eine Strategie mit starker Generalisierungsfähigkeit (Erfolgsquote 90 %) trainiert werden, sodass sie ausgeführt werden kann über neue Umgebungen und neue Objekte.
Basierend auf diesen Datenskalierungsregeln schlugen die Forscher eine effiziente Datenerfassungsstrategie vor. Sie empfehlen, Daten in möglichst vielen verschiedenen Umgebungen zu sammeln und in jeder Umgebung nur ein eindeutiges Objekt zu verwenden. Wenn die Gesamtzahl der Umgebungs-Objekt-Paare 32 erreicht, reicht es in der Regel aus, eine Richtlinie zu trainieren, die in neuen Umgebungen operieren und mit bisher unbekannten Objekten interagieren kann. Für jedes Umgebungs-Objekt-Paar wird empfohlen, 50 Demos zu sammeln.
Um die allgemeine Anwendbarkeit der Datenerfassungsstrategie zu überprüfen, wandten die Forscher sie auf zwei neue Aufgaben an: das Falten eines Handtuchs und das Herausziehen des Steckers eines Ladegeräts. Die Ergebnisse zeigen, dass diese Strategie auch Strategien mit starker Generalisierungsfähigkeit für diese beiden neuen Aufgaben trainieren kann.
Diese Studie zeigt, dass es mit einem relativ geringen Zeit- und Ressourcenaufwand möglich ist, eine Richtlinie für eine einzelne Aufgabe zu erlernen, die mit Zero-Shot-Bereitstellung in jeder Umgebung und jedem Objekt bereitgestellt werden kann. Um die Bemühungen der Forscher in diesem Bereich weiter zu unterstützen, veröffentlichte das Tsinghua-Team seinen Code, seine Daten und Modelle in der Hoffnung, weitere Forschungen auf diesem Gebiet anzuregen und letztendlich universelle Roboter zu realisieren, die in der Lage sind, komplexe, offene Weltprobleme zu lösen.
Papieradresse: https://arxiv.org/pdf/2410.18647
Diese Forschung liefert wertvolle Erfahrungen für die Datenskalierungsregeln im Bereich der Robotersteuerung, und effiziente Datenerfassungsstrategien bieten auch neue Richtungen für zukünftige Forschung. Der Open-Source-Code, die Daten und Modelle des Teams der Tsinghua-Universität werden die Entwicklung dieses Bereichs weiter vorantreiben und letztendlich leistungsfähigere Allzweckroboter hervorbringen.