反应策略深度强化学习的第一个主要成就是着名的DQN算法在各种Atari视频游戏中的人类水平表现 , 其中神经网络学习使用原始屏幕像素作为输入来玩游戏 。 在强化学习中 , 我们希望学习一种将状态映射到行动的政策 , 以便最大化累积的奖励 。 例如 , 在DQN论文中 , 神经网络是卷积神经网络 , 它将屏幕图像作为输入并输出可能动作的分数 。
虽然强化学习算法的设计使得该策略应该学会选择具有长期益处的行为 , 但我们从策略中获得的信息仅适用于当前状态 。 这称为响应策略 , 它是一种策略 , 将当前状态映射到应立即采取的操作 , 或映射到操作的概率分布 。
拥有完整的计划允许我们使用外部知识对其进行评估并防止采取危险行为 。 例如 , 如果自动驾驶汽车希望改变车道但是突然汽车接近非常快 , 比模拟汽车在训练期间更快 , 则外部程序可以预测当前计划的轨迹朝向碰撞并且中止操纵 。 这对于被动策略来说要困难得多 , 在这种策略中可能难以预测场景在播出之前如何结束 。
希望制定完整计划的另一个原因是它可能会使我们的政策表现更好 。 也许通过强制它提前计划 , 我们可能会限制我们的政策更加一致 , 并能够在看不见的情况下更好地调整 , 这正是我们想要的 。
马尔可夫决策过程规划问题的一个非常常见的模型是马尔可夫决策过程 , 即MDP 。 在MDP中 , 我们将世界定义为一组状态S , 一组可能采取的行动A , 一个奖励函数R和一个过渡模型P.它们一起构成了元组:
推荐阅读
-
-
-
-
红烧肉|一日本客户吃了我们食堂的红烧肉,不停地说欧A西,哭得死去活来!
-
房子不隔音?6种方法让你进入“静音”模式,再也不会被楼上吵醒
-
生活中,难以守住秘密的三大星座,一旦说给他们,等于告诉全世界
-
『锦衣之下』又一古装甜宠剧走红,甜度不输《锦衣之下》,才播3天口碑爆棚啦
-
作者:云山居士/白云山人(邓伦炎)|《自得瑟》(外两首)| 邓伦炎
-
小姐姐|街拍小姐姐看起来高冷,其实很活泼,穿前开叉拼接牛仔裙真的好美
-
王祖贤:王祖贤当年有多风光?当年她身边的小记者,如今已成为巨星!
-
富士康最强劲敌诞生!15年赚满1500亿!郭台铭后悔不已
-
民福康健康|头皮上有很多小疙瘩,瘙痒难忍,又不敢抓,是疾病找上门了吗?
-
-
比亚迪|最便宜国产6座MPV:1.5T油耗仅7升,液晶大屏内饰比奥德赛还给力
-
-
-
厕所|尴尬!女白领在厕所吐槽领导,不料领导就在隔间
-
-
中国新闻网客户端|希腊宣布取消今年波塞冬国际海事展 或2022年再办
-
上海外国语大学|提早谋划 护航就业!上外举办校企交流会开启新一届就业工作