技术编程探索与执行:通过元强化学习分解实现无奖励自适应( 五 )
DREAM 和 IMRL 很好地结合在一起: IMRL 原则上实现了无奖励的适应 , 而 DREAM 在实践中实现了这一点 。 由于 鸡蛋相生 耦合问题 , 我们测试的其他最先进的方法无法实现无奖励的适应 。
接下来是什么? 未来还有很多工作要做 一 下面是一些研究探索的方向:更复杂的指令与问题ID表述. 这项工作检查了一个情况 , 在这种情况下,指令与问题ID都被表达为唯一的one-hot编码 , 作为概念证明 。 当然 , 在现实世界中 , 指令和问题ID可能更好地用自然语言或图像(例如 , 要烹饪的饭菜的图片)来表示 。 把DREAM应用到元强化学习的设置中, DREAM通常适用于任何元强化学习设置 , 其中一些信息被传递给智能体 , 其余的信息必须通过探索来发现 。 在这项工作中 , 我们研究了两个这样的例子:在IMRL中 , 指令传达任务;在标准的元强化学习设置中 , 一切都必须通过探索来发现 , 但是还有其他设置也值得研究 。 例如 , 我们可能希望向智能体传递有关环境的信息 , 例如某些配料的位置 , 或者左边的煤气头坏了 , 所以机器人厨师应该使用右边的 。 无缝集成探索和执行 。 在最常见的meta-RL设置中 , 允许智能体首先通过探索(探索阶段)收集信息 , 然后再解决任务(执行阶段) 。 这也是我们研究的环境 , 它可以是相当现实的 。 例如 , 一个机器人厨师可能需要一个安装阶段 , 在开始做饭之前 , 它首先探索家庭厨房 。 另一方面 , 一些作品 , 如Zintgraf et al. , 2019 , 要求智能体从一开始就开始解决任务:没有探索情节 , 所有情节都是执行情节 。 梦在这种情况下已经可以运作了 , 只需在第一个执行情节中忽略奖励和探索 , 并在随后的执行情节中用更好的表现来弥补第一个执行情节 。 这项工作令人惊讶地好 , 但最好能更优雅地将探索和执行结合起来 。
推荐阅读
- 前瞻网|华大推15分钟新冠快速检测盒,前瞻医疗器械产业全球周报第47期:苹果被起诉窃取血氧监测专利技术
- 极酷数码客|价格很有优势,雷军刚发布行业领先技术!小米新机紧接被曝光
- 麦田军事观察|印度抨击法国公司拒绝转让核心技术啥意义?不知花钱买不来现代化
- 沈潮汐|扬言基建技术超越中国,2天后愣住了,印度3天时间搭好一座桥
- 量子科技,爆发!有项关键技术中国已领先世界
- 歼-20|又一国看上国产战机,关键部位采用歼-20技术,一口气要采购40架
- 一品汽车|“备胎上位”道阻且长,氢燃料电池技术储备不足
- 追梦格林|追梦格林谈球场心态:心态就是一项技术,我给不了杜兰特我的心态
- awesome科技|苹果12都没办法,小米宣布发布80W无线充电!这技术可真绝
- CECBC区块链专委会|第19届亚运会门票采用区块链技术防伪
