并发谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」( 二 )


并发谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
图片

图(a)表示在阻塞环境(blocking environment)中 , 获取状态与推断策略是瞬间完成的 。 图(b)中表示的并发环境(concurrent environment)在获取状态与推断策略与动作的执行都是并行的 。
接下来 , 研究人员从连续时间强化学习的角度开始探索 , 因为它可以容易地表示出系统的并发特征 。
之后研究证明 , 基于连续时间强化学习得出的结论同样适用于随后在所有实验中更为常用的离散环境 。
实验表明:并发模型比阻塞模型提高49%
研究人员分别在仿真与机械手臂上进行了实验 , 它们的任务是抓取并移动垃圾箱中的各种物体 。
并发谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
图片

仿真手臂与机械手臂的实验
并发谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
图片

表 1 通过对无条件模型与并发知识模型进行比较总结了阻塞和并发模式的性能 。 并发知识模型能够学习更快的轨迹 , 其周期持续时间与阻塞模型相比减少了 31.3% 。
并发谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
图片

研究人员表示 , 「这些模型在抓取成功方面性能相当 , 但就策略持续时间(用来衡量策略总执行时间)而言 , 并发模型比阻塞模型快49% 。 而且 , 并发模型能够执行更流利的动作 。 」
合著者认为 , 「他们研究的方法可以促进机器人的发展 , 让机器人在真实环境中完成任务 , 如在多层仓库和履行中心之间运输材料 。 」
参考链接:
http://i6.hexun.com/2020-05-14/201344889.pdf
https://sites.google.com/view/thinkingwhilemoving
https://venturebeat.com/2020/04/15/googles-ai-enables-robots-to-make-decisions-on-the-fly/
 
本文首发于微信公众号:新智元 。 文章内容属作者个人观点 , 不代表和讯网立场 。 投资者据此操作 , 风险请自担 。
(责任编辑:王治强 HF013)


推荐阅读