Исследовательская группа из Лаборатории Калифорнийского университета в Калифорнии, Беркли, разработала рамку обучения подкрепления под названием HIL-SERL, которая значительно повышает способность роботов изучать сложные операционные навыки в реальном мире. Он ловко сочетает в себе алгоритмы обучения человеческой демонстрации, коррекции и эффективного подкрепления, позволяя роботам освоить различные точные операции за короткое время, пробивая узкие места предыдущего медленного обучения и подверженных ошибкам роботов. Ожидается, что эта прорывная технология будет революционизировать способ изучения и применения роботов, заложив прочную основу для промышленной автоматизации и популяризации роботов в повседневной жизни.
Недавно исследовательская группа Sergey Levine из Лаборатории Калифорнийского университета Bair Беркли предложила подкрепление структуры обучения под названием Hil-Serl для решения проблемы роботов, обучающихся сложных операционных навыков в реальном мире.
Эта новая технология сочетает в себе демонстрацию и коррекцию человека с эффективными алгоритмами обучения подкреплению, позволяя роботам освоить различные сложные и ловкие операционные задачи, такие как динамическая операция, точная сборка и двухурочное сотрудничество всего за один-2,5 часа.
В прошлом было так трудно позволить роботу изучать новые навыки, как обучение непослушного ребенка делать домашнее задание, которому нужно было обучать шаг за шагом и снова и снова исправлять. Что еще более хлопотно, так это то, что различные ситуации в реальном мире сложны и изменчивы.
Структура HIL-SERL похожа на «Репетитор» для робота.
Вам нужно только продемонстрировать несколько раз, и робот может достойно выполнять различные операции, от игры со строительными блоками, переворачивания блинов, до сборки мебели и установки плат, это просто всемогущ!
Чтобы роботы учились быстрее и лучше, Hil-Serl также вводит механизм коррекции для взаимодействия человека с компьютером. Проще говоря, когда робот совершает ошибку, человеческие операторы могут вовремя вмешиваться, чтобы исправить его и обращать эту информацию о коррекции роботу. Таким образом, робот может постоянно учиться на ошибках, не делать ошибок неоднократно и в конечном итоге стать настоящим хозяином.
После серии экспериментов эффект HIL-Serl потрясающий. В различных задачах роботы достигли успеха почти на 100% всего за 1-2,5 часа, а скорость работы почти в 2 раза быстрее, чем раньше.
Что еще более важно, HIL-SERL является первой системой, которая внедряет координацию с двумя руками на основе ввода изображения с использованием обучения подкреплению в реальном мире, то есть она позволяет двум рукам робота работать вместе для выполнения более сложных задач. Синхронизирующий ремень требует высоко скоординированной операции.
Появление HIL-SERL не только позволяет нам видеть огромный потенциал обучения роботам, но и указывает на направление для будущих промышленных применений и исследований. Возможно, в будущем у каждого из нас будет «ученик -робот» в нашем доме, который поможет нам выполнять работу по дому, собирать мебель и даже играть в игры с нами.
Конечно, Hil-Serl также имеет некоторые ограничения. Например, для некоторых задач, которые требуют долгосрочного планирования, это может показаться ошеломляющим. Кроме того, в настоящее время HIL-SERL в основном тестируется в лабораторных средах и не был проверен в крупных сценариях в реальных сценариях. Тем не менее, я считаю, что с развитием технологий эти проблемы будут постепенно решены.
Бумажный адрес: https://hil-serl.github.io/static/hil-serl-paper.pdf
Адрес проекта: https://hil-serl.github.io/
Таким образом, структура HIL-SERL привела к значительному прогрессу в области обучения роботам, а ее эффективные способности к обучению и механизмы взаимодействия человека с компьютером позволили им проявить большой потенциал в реальных приложениях. Несмотря на то, что все еще есть некоторые ограничения, будущие перспективы развития с нетерпением ждут.