Downcodes의 편집자는 Google이 Gemini AI를 사용하여 로봇 탐색 및 작업 실행 기능을 향상시키고 있다는 사실을 알게 되었습니다. DeepMind 팀의 최신 연구에 따르면 Gemini 1.5 Pro의 긴 컨텍스트 창 기능은 사용자와 RT-2 로봇 간의 자연어 상호 작용을 크게 향상시키는 것으로 나타났습니다. 이러한 기술적 혁신을 통해 로봇은 비디오를 시청함으로써 환경을 이해하고 지시에 따라 충전을 위해 사용자를 전원 소켓으로 안내하는 등 복잡한 작업을 완료할 수 있게 되어 로봇 공학 분야에서 인공 지능의 엄청난 잠재력을 입증하게 되었습니다.
Google은 탐색 및 작업 완료를 개선하기 위해 Gemini AI로 로봇을 교육하고 있습니다.
새로운 연구 논문에서 DeepMind Robotics 팀은 Gemini1.5Pro의 긴 컨텍스트 창을 사용하여 사용자가 자연어 지침을 통해 RT-2 로봇과 더 쉽게 상호 작용할 수 있도록 하는 방법을 자세히 설명합니다. 연구원들은 지정된 지역을 비디오 투어함으로써 Gemini1.5Pro를 사용하여 로봇이 비디오를 "시청"하여 환경을 이해하고 로봇이 관찰한 내용을 기반으로 사용자에게 전원을 안내하는 명령을 수행할 수 있도록 했습니다. 충전용 콘센트.
딥마인드는 제미니를 탑재한 로봇이 9000평방피트가 넘는 작업 영역에서 50개 이상의 사용자 명령을 성공적으로 실행해 90%의 성공률을 보였다고 밝혔다.
또한 연구원들은 Gemini1.5Pro를 통해 로봇이 탐색뿐만 아니라 지침을 완료하는 방법을 계획할 수 있다는 사실도 발견했습니다. 예를 들어, 책상 위에 콜라 캔이 많은 사용자가 좋아하는 음료가 있는지 로봇에게 물으면 Gemini는 로봇에게 냉장고로 가서 확인해야 한다고 알리고 결과를 사용자에게 다시 보고합니다. DeepMind는 이러한 결과를 더 조사할 것이라고 말했습니다.
구글이 제공하는 동영상 시연은 인상적이지만, 연구 논문에 따르면 로봇이 이러한 명령을 처리하는 데 10~30초가 걸린다고 합니다. 우리가 집을 보다 진보된 환경 매핑 로봇과 공유하기까지는 다소 시간이 걸릴 수 있지만, 적어도 이 로봇은 잃어버린 열쇠나 지갑을 찾는 데 도움이 될 수 있습니다.
가장 밝은 부분:
Gemini AI는 로봇을 훈련시켜 탐색 및 작업 완료 기능을 향상시킵니다.
? Gemini1.5Pro를 사용하면 로봇이 자연어 명령을 실행할 수 있습니다.
Gemini는 로봇이 내비게이션 이상의 명령을 계획하고 실행할 수 있게 해준다는 연구 결과가 나왔습니다.
이번 연구 결과는 향후 로봇 기술의 급속한 발전을 예고하는 것으로, 제미니 AI의 적용은 로봇의 지능 수준을 크게 향상시켜 인간의 삶에 더 나은 서비스를 제공할 수 있게 해줄 것입니다. 아직은 기술적인 어려움이 있지만, 머지않아 더 발전된 로봇이 우리 삶에 들어오고 더 많은 편리함을 가져다줄 것이라고 믿습니다. Downcodes의 편집자는 이 분야의 최신 개발에 계속해서 주의를 기울일 것입니다.