Развитие глубокого обучения в области управления роботами ограничено отсутствием крупномасштабных моделей данных. Исследовательская группа из Университета Цинхуа недавно совершила прорыв. Благодаря эффективной стратегии сбора данных она собрала достаточно данных всего за один день, добившись 90% успеха стратегии роботов в новых средах и новых объектах. Редактор Downcodes поможет вам понять результаты этого исследования и лежащие в его основе правила масштабирования данных.
Быстрое развитие глубокого обучения неотделимо от крупномасштабных наборов данных, моделей и расчетов. В области обработки естественного языка и компьютерного зрения исследователи обнаружили степенную зависимость между производительностью модели и размером данных. Однако в области робототехники, особенно в области управления роботами, еще не установлены подобные правила масштабирования.
Исследовательская группа из Университета Цинхуа недавно опубликовала статью, в которой изучаются правила масштабирования данных при обучении имитации роботов, и предложила эффективную стратегию сбора данных, которая позволила собрать достаточно данных всего за один день, что делает эту стратегию способной достичь примерно 90% успеха в новых исследованиях. окружение и новые объекты.
Исследователи разделили способность к обобщению на два измерения: обобщение окружающей среды и обобщение объектов, и использовали портативный захват для сбора демонстрационных данных людей о различных средах и различных объектах, а также смоделировали эти данные, используя стратегию диффузии. Сначала исследователи сосредоточились на двух задачах: заливке воды и размещении мыши. Анализируя, как эффективность стратегии в новых средах или новых объектах меняется с увеличением количества обучающих сред или объектов, они обобщили правила масштабирования данных.
Результаты исследования показывают:
Способность политики обобщаться на новые объекты, новые среды или и то, и другое имеет степенную зависимость от количества обучающих объектов, обучающих сред или пар обучающая среда-объект соответственно.
Увеличение разнообразия сред и объектов более эффективно, чем увеличение количества демонстраций каждой среды или объекта.
Собирая данные в максимально возможном количестве сред (например, 32 среды), с уникальным операционным объектом и 50 демонстрациями в каждой среде, можно обучить стратегию с сильной способностью к обобщению (степень успеха 90%), чтобы она могла работать о новых средах и новых объектах.
Основываясь на этих правилах масштабирования данных, исследователи предложили эффективную стратегию сбора данных. Они рекомендуют собирать данные в как можно большем количестве различных сред, используя только один уникальный объект в каждой среде. Когда общее количество пар среда-объект достигает 32, обычно достаточно обучить политику, которая сможет работать в новых средах и взаимодействовать с ранее невиданными объектами. Для каждой пары среда-объект рекомендуется собрать 50 демок.
Чтобы проверить общую применимость стратегии сбора данных, исследователи применили ее к двум новым задачам: сложить полотенце и отключить зарядное устройство. Результаты показывают, что эта стратегия также может обучать стратегии с сильной способностью к обобщению для решения этих двух новых задач.
Это исследование показывает, что при относительно скромных затратах времени и ресурсов можно изучить однозадачную политику, которую можно развернуть в любой среде и объекте с нулевым развертыванием. Для дальнейшей поддержки усилий исследователей в этой области команда Цинхуа опубликовала свой код, данные и модели в надежде вдохновить на дальнейшие исследования в этой области и, в конечном итоге, создать универсальных роботов, способных решать сложные проблемы открытого мира.
Адрес статьи: https://arxiv.org/pdf/2410.18647.
Это исследование дает ценный опыт для правил масштабирования данных в области управления роботами, а эффективные стратегии сбора данных также открывают новые направления для будущих исследований. Открытый исходный код, данные и модели команды Университета Цинхуа будут способствовать дальнейшему развитию этой области и, в конечном итоге, созданию более мощных роботов общего назначения.