Downcodes의 편집자는 NVIDIA 연구팀이 획기적인 발전을 이루었고 HOVER(Humanoid Multi-Function Controller)라는 새로운 신경망을 개발했다는 사실을 알게 되었습니다. 이 신경망의 매개변수는 150만 개에 불과하지만 휴머노이드 로봇의 움직임과 작동을 효율적으로 조정할 수 있다는 점과 효율적인 훈련 방식과 강력한 기능이 눈길을 끈다. HOVER의 등장은 휴머노이드 로봇 제어 기술의 큰 진전을 의미하며 미래 로봇 기술 발전에 새로운 가능성을 제시합니다.
NVIDIA의 수석 연구 관리자인 Jim Fan은 "모든 기본 모델이 거대할 필요는 없습니다. 우리가 훈련한 150만 매개변수 신경망은 인간형 로봇의 신체를 제어하도록 설계되었습니다."라고 덧붙였습니다. 그는 HOVER가 인간의 움직임을 포착할 수 있다고 설명했습니다. 로봇이 번거로운 프로그래밍 없이 복잡한 작업을 수행할 수 있도록 잠재의식 프로세스를 수행합니다. 그는 "인간이 걸을 때, 균형을 유지할 때, 팔다리를 유연하게 조절할 때 무의식적인 처리가 많이 필요하다"고 말했다.
훈련 과정에서 HOVER는 실제 시뮬레이션을 실시간보다 10,000배 빠르게 가속화할 수 있는 NVIDIA의 Isaac 시뮬레이션 플랫폼을 사용했습니다.
Jim Fan은 이 모델이 가상 환경에서 훈련하는 데 1년이 걸렸고 실제로 단일 GPU에서 완료되는 실시간 시간은 약 50분밖에 걸리지 않았다고 밝혔습니다. 그는 이러한 효율적인 훈련을 통해 미세 조정 없이도 신경망을 실제 응용 프로그램으로 원활하게 전송할 수 있다고 말했습니다.
HOVER는 머리와 손 자세 제어를 위해 XR 장치(예: Apple의 Vision Pro)를 사용하거나 모션 캡처 및 RGB 카메라를 통해 전신 자세를 획득하는 등 다양한 고급 모션 명령에 응답할 수 있는 능력을 갖추고 있습니다. 외골격 각도에서 관절을 사용하거나 조이스틱에서 루트 속도 명령을 얻습니다. 팬은 HOVER가 다양한 입력 장치를 제어하는 로봇을 위한 통합 인터페이스를 제공함으로써 훈련을 위한 원격 조작 데이터 수집을 용이하게 한다고 강조했습니다.
또한 HOVER는 업스트림 시각적 언어 동작 모델과 통합되어 이동 명령을 고주파수에서 낮은 수준의 모터 신호로 변환할 수 있습니다. 이 모델은 Isaac에서 시뮬레이션할 수 있는 모든 휴머노이드 로봇과 호환되므로 사용자가 쉽게 로봇에 생명을 불어넣을 수 있습니다.
엔비디아는 이르면 올해 초 휴머노이드 로봇용 일반 베이스 모델인 GR00T라는 프로젝트도 발표했다. GR00T(Generalist Robot00Technology)로 구동되는 로봇은 자연어를 이해하고 움직임을 관찰하여 인간의 움직임을 모방할 수 있으므로 현실 세계에서 효과적으로 상호 작용하는 데 필요한 조정, 유연성 및 기타 기술을 빠르게 배울 수 있습니다.
논문 URL: https://arxiv.org/pdf/2410.21229
HOVER의 출현은 휴머노이드 로봇 제어 분야에 새로운 희망을 가져왔습니다. HOVER의 효율적인 훈련 방법과 강력한 기능은 미래의 로봇 기술이 더욱 지능적이고 인간적이 될 것임을 나타냅니다. 이러한 기술적 혁신은 다양한 분야에서 휴머노이드 로봇의 적용을 크게 촉진할 것입니다. 앞으로 더욱 흥미로운 발전이 이루어지길 기대합니다!