中科院之声机器人也路痴?丨智言智语( 二 )
基于深度强化学习的未知环境探索方法
近几年 , Alpha Go, AlphaGo Zero等游戏AI在围棋领域取得巨大突破使其核心技术——“深度强化学习”——得到了广泛的关注 。 与此同时 , 深度强化学习也逐渐应用到机器人领域 , 而基于深度强化学习的自主探索成为未知环境探索领域的热点方向之一 , 这类方法通常是设计奖励函数 , 通过强化学习算法 , 训练传感器数据到动作的映射网络 。 前面也提到 , 基于深度神经网络的方法相比于其他方法有很多优势 , 但是它也存在一些问题 。 首先 , 这种方法需要大量训练样本和训练时间 , 而训练过程通常是在仿真环境中进行 , 由于实际环境和实际机器人误差 , 从而导致从仿真环境中训练出的智能体很难迁移到实际的机器人上 。 针对这个问题 , 中科院自动化所深度强化学习团队提出了一种学习效率高、迁移性能强的深度强化学习未知环境自主探索算法 。
本文插图
图2 自主探索框架
团队以自主导航框架为基础 , 将未知环境探索分解为建图、决策和规划三个模块 。 通过将决策模块与规划模块相结合 , 减小机器人学习运动的难度 , 从而提高机器人学习效率 。 并且重新定了机器人决策动作空间 , 提高算法实体迁移性 。 该动作空间定义在建图模块得到的栅格地图 , 由若干目标点构成 。
本文插图
图3 基于栅格地图的动作空间
在此基础上 , 设计了一种带有辅助任务的全卷积Q网络(Fully Convolutional Q-network with an Auxiliary task , AFCQN) , 可以根据当前时刻构建的地图 , 当前时刻机器人位置和上一时刻机器人位置 , 对动作空间中的目标点进行评价 。
本文插图
图4 动作评价网络结构
该网络结构可以通过使用结合地图信息熵设计的奖励函数实现参数的自适应学习 。
图5 实际环境中自动探索过程
通过仿真环境中的实验和实际环境中实体机器人上的实验表明 , 团队提出的这种基于深度强化学习的自主探索算法具有更好的学习效率和实体迁移性能 。 并且相比于经典方法 , 该方法在处理杂乱环境时具有更高的探索效率 。
总结:
未知环境探索使机器人在新环境中不再“迷路” , 是进行自主工作的前提 , 也是机器人自主学习和进化的关键 。 未知环境探索不仅让机器人熟悉新环境 , 更重要的是为后续决策提供重要的环境地图信息 。 深度强化学习为未知环境探索提供了新思路 , 但也面临着学习效率低的问题 。 高效和鲁棒的学习算法仍然是今后努力发展的方向 。
参考文献:
1. B. Yamauchi, “A frontier-based approach for autonomous exploration,” in Proceeding of IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA). IEEE, 1997, pp. 146–151.
2. C. Stachniss, et al. “Information gain-based exploration using Rao-Blackwellized particle filters.” In Proceedings of Robotics: Science and Systems (RSS), 2005, pp. 65–72.
3. L. Tai and M. Liu, “Mobile robots exploration through CNN-based reinforcement learning,” Robotics and Biomimetics, vol. 3, no. 1, p. 24, 2016.
4. S. Bai, F. Chen, and B. Englot, “Toward autonomous mapping and exploration for mobile robots through deep supervised learning,” in Proceeding of IEEE International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017, pp. 2379–2384.
推荐阅读
- 狼|日本居民区摆出红眼机器“魔鬼狼”,为防熊出没
- 葡萄|到底要不要去葡萄皮?果酒机器:酿葡萄酒
- 中央广电总台中国之声|奶奶住院不肯喝药!孙子出高招,网友笑着笑着就哭了
- 中科院之声|科学家用严格耦合波分析法获取PT对称的声栅衍射特性
- 哈工海渡|新一代智能办公机器人系统上线,数字白领“上岗”
- 机器之心旷视物流,一个AI独角兽的B面
- 人工智能领军企业达观数据推出新一代RPA智能办公机器人集群
- 当人工智能遇上服务机器人 机器人被赋予了人类的“灵魂”
- 中投顾问|2020-2024年中国协作机器人产业的分析
- 智能机器人和机器人对战乒乓球,你玩过吗?要不来试试?
