Downcodes小编获悉,谷歌正在利用其Gemini AI 提升机器人导航和任务执行能力。 DeepMind 团队最新研究表明,Gemini 1.5 Pro 的长上下文窗口功能,显着改善了用户与RT-2 机器人间的自然语言交互。这项技术突破,让机器人能够通过观看视频理解环境,并根据指令完成诸如引导用户至电源插座充电等复杂任务,展现了人工智能在机器人领域的巨大潜力。
谷歌正在通过Gemini AI 训练其机器人,以提高导航和任务完成的能力。
DeepMind 机器人团队在一篇新的研究论文中详细解释了如何利用Gemini1.5Pro 的长上下文窗口来让用户更轻松地用自然语言指令与RT-2机器人交互。通过拍摄指定区域的视频游览,研究人员使用Gemini1.5Pro 让机器人“观看” 视频以了解环境,从而使机器人能够根据观察到的情况执行命令,比如引导用户到电源插座充电等。
DeepMind 表示,搭载Gemini 的机器人在9000多平方英尺的操作区域内成功执行了50多个用户指令,成功率达到90%。
此外,研究人员还发现Gemini1.5Pro 让机器人能够计划如何完成指令,不仅限于导航。例如,当一个桌子上放着很多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,Gemini 让机器人知道应该前往冰箱检查,然后向用户报告结果。 DeepMind 表示将进一步调查这些结果。
根据研究论文显示,虽然谷歌提供的视频演示令人印象深刻,但根据论文所示,机器人处理这些指令需要10-30秒的时间。尽管我们可能需要一些时间才能与更先进的环境测绘机器人共享家园,但至少这些机器人可能能够帮我们找到遗失的钥匙或钱包。
划重点:
Gemini AI 训练机器人,提高导航和任务完成能力
? Gemini1.5Pro 让机器人能够执行自然语言指令
研究发现Gemini 让机器人能够计划执行超出导航范围的指令
这项研究成果预示着未来机器人技术的飞速发展,Gemini AI 的应用将极大提升机器人的智能化水平,使其能够更好地服务于人类生活。虽然目前仍存在一些技术瓶颈,但相信在不久的将来,更先进的机器人将走进我们的生活,为我们带来更多便利。 Downcodes小编将持续关注该领域的最新进展。