苏眠月|使用价值迭代网络进行规划虽然强化学习算法的设计使得该策略应该

反应策略深度强化学习的第一个主要成就是着名的DQN算法在各种Atari视频游戏中的人类水平表现，其中神经网络学习使用原始屏幕像素作为输入来玩游戏。在强化学习中，我们希望学习一种将状态映射到行动的政策，以便最大化累积的奖励。例如，在DQN论文中，神经网络是卷积神经网络，它将屏幕图像作为输入并输出可能动作的分数。
虽然强化学习算法的设计使得该策略应该学会选择具有长期益处的行为，但我们从策略中获得的信息仅适用于当前状态。这称为响应策略，它是一种策略，将当前状态映射到应立即采取的操作，或映射到操作的概率分布。
拥有完整的计划允许我们使用外部知识对其进行评估并防止采取危险行为。例如，如果自动驾驶汽车希望改变车道但是突然汽车接近非常快，比模拟汽车在训练期间更快，则外部程序可以预测当前计划的轨迹朝向碰撞并且中止操纵。这对于被动策略来说要困难得多，在这种策略中可能难以预测场景在播出之前如何结束。
希望制定完整计划的另一个原因是它可能会使我们的政策表现更好。也许通过强制它提前计划，我们可能会限制我们的政策更加一致，并能够在看不见的情况下更好地调整，这正是我们想要的。
马尔可夫决策过程规划问题的一个非常常见的模型是马尔可夫决策过程，即MDP 。在MDP中，我们将世界定义为一组状态S ，一组可能采取的行动A ，一个奖励函数R和一个过渡模型P.它们一起构成了元组：

苏眠月|使用价值迭代网络进行规划

推荐阅读

淘宝卖什么类目竞争不大主营类目占比会对网店产生哪些影响

日本乐天购物网教程攻略

生科医学|嘘~~我发现了减肥密码只要把食物都做成蓝色的

秦昊|从“伊能静老公”到“面善心狠张东升”，秦昊与倔强“和解”了吗？

稻香村有个圆形糕点中间有颗枣的叫啥名字呀

「刀马物语」从中韩5G商用后用户数对比看手机厂商机会

地产业|地产猎头眼中2022年前5月人才市场情况，有几点可能很多人没料到

妇保康栓有副作用吗？

晓说时尚儿|一鼻毁了整张脸，颜值再高也拯救不了，公认的5种“丑鼻型”

色彩车圈|没利润了，路虎极光“库存泛滥”！车商：降至26W没人买

没有PS滤镜的年代，86版《西游记》中的美女才是真正的女神

比如小米的小米10pro，但是这些这足够让数亿米粉始料未及，幸福来得太突然了

宇文邕死后为何是杨坚继承北周隋文帝杨坚的女儿杨丽华

vivo|把PC功能塞进手机系统里！曝vivo OriginOS 2.0 12月发布

知识百科|中版《太阳的后裔》超甜海报曝光！李沁黄景瑜密意对视，甜过双宋

幼儿园一到冬天就难坐满，老师：天不怕地不怕，就怕孩子都请假

高山乌龙茶有哪些,乌龙茶冷泡茶的好处有哪些

商务部答一财：望有关国家持续提升贸易投资自由化便利化水平

如何上香港大学(香港本地生上大学学费)

家里全是水怎么快速处理