|DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强( 二 )
研究者在 control suite、Atari 和 bsuite 等环境中对这些智能体进行了基准测试 , 下面动图 Demo 为利用 Acme 框架的智能体训练示例:
本文插图
如下图所示 , DeepMind 展示了单个智能体(D4PG)的性能比较 , 其中所采用的度量指标是连续控制任务的 actor step 和时钟时间 。 可以看到 , 当对智能体收到的奖励与其环境交互次数进行比较时 , 性能大致相同 。 但是 , 随着智能体进一步并行化 , 智能体的学习速度加快 。 在相对较小的域内 , 观察结果被限制在小的特征空间中 , 这时即使并行化程度适度增加 , 则智能体学习最优策略的时间会降至不到一半 。
本文插图
但对于更复杂的域 , 图像生成成本相对较高 , 我们可以看到更广泛的增益:
本文插图
对于雅达利游戏等数据收集成本更高且学习过程通常更长的域说 , 增益会更大 。 但需要注意的是 , 这些结果在分布式和非分布式设置下共享相同的动作和学习代码 , 因此对这些智能体和结果进行小规模实验完全可行 。
原文链接:https://deepmind.com/research/publications/Acme
推荐阅读
- |最新爆料:iphone12可能考虑全面采用纯平面玻璃设计
- |电视“新物种”再进化!海信最新激光电视获关注
- 肯德基|肯德基又一重磅力作!与3D生物打印公司合作 尝试生产更环保鸡块
- Android系统,鲁大师|最新UI排名出炉:小米MIUI第九,魅族消失,黑马出现!
- |华为 Mate 40 或采用双芯片方案,外媒绘制最新 Mate 40 Pro 渲染图
- 科学|银河系最新的超新星被隐藏起来……直到现在!
- 华为|华为Mate40最新渲染图曝光:刘海没了 双曲面“瀑布屏”科技感爆棚
- |三星 Note20 Ultra最新渲染图曝光,居中开孔全面屏设计
- 新机发布|华为Mate40最新渲染图曝光:刘海没了 双曲面“瀑布屏”科技感爆棚
- 中年|语音识别技术发展迅速,你需要全方位解读语音识别的最新著作
