技术编程探索与执行：通过元强化学习分解实现无奖励自适应( 五 ) |智能机器人|

DREAM 和 IMRL 很好地结合在一起： IMRL 原则上实现了无奖励的适应，而 DREAM 在实践中实现了这一点。由于鸡蛋相生耦合问题，我们测试的其他最先进的方法无法实现无奖励的适应。
接下来是什么？未来还有很多工作要做一下面是一些研究探索的方向：更复杂的指令与问题ID表述. 这项工作检查了一个情况，在这种情况下,指令与问题ID都被表达为唯一的one-hot编码，作为概念证明。当然，在现实世界中，指令和问题ID可能更好地用自然语言或图像（例如，要烹饪的饭菜的图片）来表示。把DREAM应用到元强化学习的设置中, DREAM通常适用于任何元强化学习设置，其中一些信息被传递给智能体，其余的信息必须通过探索来发现。在这项工作中，我们研究了两个这样的例子：在IMRL中，指令传达任务；在标准的元强化学习设置中，一切都必须通过探索来发现，但是还有其他设置也值得研究。例如，我们可能希望向智能体传递有关环境的信息，例如某些配料的位置，或者左边的煤气头坏了，所以机器人厨师应该使用右边的。无缝集成探索和执行。在最常见的meta-RL设置中，允许智能体首先通过探索（探索阶段）收集信息，然后再解决任务（执行阶段）。这也是我们研究的环境，它可以是相当现实的。例如，一个机器人厨师可能需要一个安装阶段，在开始做饭之前，它首先探索家庭厨房。另一方面，一些作品，如Zintgraf et al. ， 2019 ，要求智能体从一开始就开始解决任务：没有探索情节，所有情节都是执行情节。梦在这种情况下已经可以运作了，只需在第一个执行情节中忽略奖励和探索，并在随后的执行情节中用更好的表现来弥补第一个执行情节。这项工作令人惊讶地好，但最好能更优雅地将探索和执行结合起来。

技术编程探索与执行：通过元强化学习分解实现无奖励自适应( 五 )

推荐阅读

斯里兰卡国防部：本地极端组织头目已在自杀袭击中身亡

我爱音频网@TWS 真无线耳机推荐，总有一款适合你，十大热销主动降噪

穿衣搭配|职场女人该有的打扮长啥样：不花哨、不扮嫩、不沉闷，小个子可学

啤酒猪脚的做法

cpi|王有捐：CPI呈结构性上涨 PPI低位运行

AI智能体：未来的真正挑战？

古代枷锁尺寸,古代枷锁重量-

电话诈骗|冒充“公检法”诈骗来袭警方火速“拦截”制止损失10万元

格莱美奖|格莱美新人比莉推出全新单曲，上线不到一天浏览量就超600万次

上一个好的大学真的可以有更好的工作，挣得更多，有更好的生活吗

【】北京连续9天无新增确诊病例 7月14日治愈出院14例

名扬四海的3大生肖是什么？

天耀东方|再信任却难，缘说：原谅容易

瓶子实用的生活小窍门瓶子妙用

孕妇文胸@孕妇文胸要不要钢圈

湖南湘潭一男孩高空抛物引发关注家长回应了

集成电路青年科学家创新队伍建设与人才发展体制机制主题沙龙在厦门清华海峡研究院顺利举办

所罗门群岛|真当我国好欺负？抱美澳大腿与我国断交，如今向我国求助7000亿？

光明网|外卖小哥朝小区电梯按键吐痰业主：还不止一口

土豆抗氧化能力原因土豆抗氧化方法