로봇 제어 분야에서 딥러닝의 발전은 대규모 데이터 패턴의 부족으로 인해 제한됩니다. 최근 칭화대학교 연구팀은 효율적인 데이터 수집 전략을 통해 단 하루 만에 충분한 데이터를 수집하여 새로운 환경과 새로운 물체에서 로봇 전략의 성공률 90%를 달성했습니다. 다운코드 편집자는 이 연구 결과와 그 뒤에 있는 데이터 확장 규칙을 이해하도록 안내합니다.
딥 러닝의 급속한 발전은 대규모 데이터 세트, 모델 및 계산과 불가분의 관계입니다. 자연어 처리 및 컴퓨터 비전 분야에서 연구자들은 모델 성능과 데이터 크기 사이의 거듭제곱 관계를 발견했습니다. 그러나 로봇공학 분야, 특히 로봇 제어 분야에서는 아직까지 유사한 규모의 규칙이 확립되지 않았습니다.
칭화대 연구팀은 최근 로봇 모방 학습의 데이터 스케일링 규칙을 탐구하는 논문을 발표하고 단 하루 만에 충분한 데이터를 수집하는 효율적인 데이터 수집 전략을 제안했습니다. 이를 통해 새로운 학습에서 약 90%의 성공률을 달성할 수 있습니다. 환경과 새로운 개체.
연구원들은 일반화 능력을 환경 일반화와 객체 일반화라는 두 가지 차원으로 나누고 휴대용 그리퍼를 사용하여 다양한 환경과 다양한 객체에 대한 인간의 시연 데이터를 수집하고 확산 전략을 사용하여 이러한 데이터를 모델링했습니다. 연구진은 먼저 물 붓기와 마우스 배치라는 두 가지 작업에 집중했습니다. 훈련 환경이나 객체의 수가 증가함에 따라 새로운 환경이나 새로운 객체에 대한 전략의 성능이 어떻게 변하는지 분석하여 데이터 스케일링의 규칙을 요약했습니다.
연구 결과는 다음과 같습니다.
새로운 객체, 새로운 환경 또는 둘 다로 일반화하는 정책의 능력은 각각 훈련 객체, 훈련 환경 또는 훈련 환경-객체 쌍의 수와 거듭제곱 법칙 관계를 갖습니다.
각 환경이나 사물의 시연 횟수를 늘리는 것보다 환경과 사물의 다양성을 늘리는 것이 더 효과적입니다.
가능한 한 많은 환경(예: 32개 환경)에서 데이터를 수집하고, 고유한 운영 개체와 각 환경에서 50개의 데모를 통해 강력한 일반화 능력(성공률 90%)을 갖춘 전략을 훈련할 수 있으므로 이를 실행할 수 있습니다. 새로운 환경과 새로운 물체에 대해.
연구진은 이러한 데이터 확장 규칙을 기반으로 효율적인 데이터 수집 전략을 제안했습니다. 그들은 각 환경에서 하나의 고유한 개체만 사용하여 가능한 한 다양한 환경에서 데이터를 수집할 것을 권장합니다. 환경-객체 쌍의 총 개수가 32개에 도달하면 일반적으로 새로운 환경에서 작동하고 이전에 볼 수 없었던 객체와 상호 작용할 수 있는 정책을 훈련하는 것으로 충분합니다. 각 환경-객체 쌍에 대해 50개의 데모를 수집하는 것이 좋습니다.
데이터 수집 전략의 일반적인 적용 가능성을 확인하기 위해 연구원들은 이를 두 가지 새로운 작업, 즉 수건 접기와 충전기 뽑기에 적용했습니다. 결과는 이 전략이 이 두 가지 새로운 작업에 대해 강력한 일반화 능력을 갖춘 전략을 훈련할 수도 있음을 보여줍니다.
본 연구는 상대적으로 적은 시간과 자원 투자로 제로샷 배포로 어떤 환경과 객체에도 배포할 수 있는 단일 작업 정책을 학습하는 것이 가능하다는 것을 보여줍니다. 이 분야에서 연구원들의 노력을 더욱 지원하기 위해 Tsinghua 팀은 해당 분야의 추가 연구를 장려하고 궁극적으로 복잡한 개방형 문제를 해결할 수 있는 범용 로봇을 실현하기 위해 코드, 데이터 및 모델을 공개했습니다.
논문 주소: https://arxiv.org/pdf/2410.18647
본 연구는 로봇 제어 분야의 데이터 스케일링 규칙에 대한 귀중한 경험을 제공하며, 효율적인 데이터 수집 전략은 향후 연구에 새로운 방향을 제시합니다. 칭화대학교 팀의 오픈 소스 코드, 데이터 및 모델은 이 분야의 발전을 더욱 촉진하고 궁극적으로 더욱 강력한 범용 로봇을 달성할 것입니다.