技术编程探索与执行:通过元强化学习分解实现无奖励自适应( 五 )


DREAM 和 IMRL 很好地结合在一起: IMRL 原则上实现了无奖励的适应 , 而 DREAM 在实践中实现了这一点 。 由于 鸡蛋相生 耦合问题 , 我们测试的其他最先进的方法无法实现无奖励的适应 。
接下来是什么? 未来还有很多工作要做 一 下面是一些研究探索的方向:更复杂的指令与问题ID表述. 这项工作检查了一个情况 , 在这种情况下,指令与问题ID都被表达为唯一的one-hot编码 , 作为概念证明 。 当然 , 在现实世界中 , 指令和问题ID可能更好地用自然语言或图像(例如 , 要烹饪的饭菜的图片)来表示 。 把DREAM应用到元强化学习的设置中, DREAM通常适用于任何元强化学习设置 , 其中一些信息被传递给智能体 , 其余的信息必须通过探索来发现 。 在这项工作中 , 我们研究了两个这样的例子:在IMRL中 , 指令传达任务;在标准的元强化学习设置中 , 一切都必须通过探索来发现 , 但是还有其他设置也值得研究 。 例如 , 我们可能希望向智能体传递有关环境的信息 , 例如某些配料的位置 , 或者左边的煤气头坏了 , 所以机器人厨师应该使用右边的 。 无缝集成探索和执行 。 在最常见的meta-RL设置中 , 允许智能体首先通过探索(探索阶段)收集信息 , 然后再解决任务(执行阶段) 。 这也是我们研究的环境 , 它可以是相当现实的 。 例如 , 一个机器人厨师可能需要一个安装阶段 , 在开始做饭之前 , 它首先探索家庭厨房 。 另一方面 , 一些作品 , 如Zintgraf et al. , 2019 , 要求智能体从一开始就开始解决任务:没有探索情节 , 所有情节都是执行情节 。 梦在这种情况下已经可以运作了 , 只需在第一个执行情节中忽略奖励和探索 , 并在随后的执行情节中用更好的表现来弥补第一个执行情节 。 这项工作令人惊讶地好 , 但最好能更优雅地将探索和执行结合起来 。


推荐阅读