最新电影资讯机器人星球大探险 - 和谷歌一同解锁强化学习导航的未来

雷锋网 AI 科技评论按:可以智能自主导航的机器人不仅能为人类带来便利,还能帮助那些行动受限的人独立生活。目前,研究表明强化学习方法适合将传感器数据映射为机器人的动作,但这种智能体通常缺乏理解大空间环境的能力,这对长距离安全穿梭和适应新环境至关重要。

谷歌的研究团队近期探索了深度强化学习与长距离运动规划结合的算法,实现了机器人自主控制,并且具有很强的自适应性。在三篇论文中,他们逐步将深度强化学习与长距离规划相结合,以探索更易于适应新环境的自动控制方案。

首先,他们训练了本地规划智能体,可以执行基本导航任务、安全穿越较短的地形并避免碰撞。这类局部规划器能够接受噪声传感器输入,如一维激光雷达提供的障碍物距离信息,并通过这些数据计算出线速度和角速度。谷歌 AI 研究人员利用 AutoRL 训练这些局部规划器,它可以自动搜索反馈和神经网络架构,尽管训练范围只有 10-15 米,但它们在真实机器人和未见过环境中的迁移表现良好。

接着,他们构建了路线图,将不同的位置作为节点,然后训练出的局部规划者在模拟有噪声传感器和控制条件下可靠地往返于两个节点,这样这两个节点就被用边连接起来,从而形成一个包含整个空间的大尺度导航基础结构。

随后,一篇名为《Learning Navigation Behaviors End-to-End with AutoRL》的论文介绍了一种通过 AutoRL 学习端到端导航行为。在稀疏反馈框架下使用 DDPG 算法时,由于需要大量迭代尝试、手工调节反馈以及选择最佳网络结构,而且容易出现灾难性遗忘现象,因此采用了 AutoRL 自动搜索最佳反馈和网络结构,最终提高了策略质量,对新环境泛化能力更好,但也存在样本效率低的问题。

另一篇名为《PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning》的论文则是基于采样的概率地图(PRMs)方法组合强化学习以完成长距离机器人导航任务。在 ICRA 2018 上获得最佳论文奖,该方法通过结合手工调节基于强化学习的局部规划者(未使用 AutoRL)与 PRMs,在某个局部进行训练但能够适应多种不同的环境。此外,还有一篇关于基于 PRM-RL 的室内长距离导航的小结,其中加入 SLAM 地图增进性能,同时支持分布式地图构建,使得最大支持的地图大小增加到 70 万个节点。

标签: 机器人

猜你喜欢