反应策略深度强化学习的第一个主要成就是着名的DQN算法在各种Atari视频游戏中的人类水平表现 , 其中神经网络学习使用原始屏幕像素作为输入来玩游戏 。 在强化学习中 , 我们希望学习一种将状态映射到行动的政策 , 以便最大化累积的奖励 。 例如 , 在DQN论文中 , 神经网络是卷积神经网络 , 它将屏幕图像作为输入并输出可能动作的分数 。
虽然强化学习算法的设计使得该策略应该学会选择具有长期益处的行为 , 但我们从策略中获得的信息仅适用于当前状态 。 这称为响应策略 , 它是一种策略 , 将当前状态映射到应立即采取的操作 , 或映射到操作的概率分布 。
拥有完整的计划允许我们使用外部知识对其进行评估并防止采取危险行为 。 例如 , 如果自动驾驶汽车希望改变车道但是突然汽车接近非常快 , 比模拟汽车在训练期间更快 , 则外部程序可以预测当前计划的轨迹朝向碰撞并且中止操纵 。 这对于被动策略来说要困难得多 , 在这种策略中可能难以预测场景在播出之前如何结束 。
希望制定完整计划的另一个原因是它可能会使我们的政策表现更好 。 也许通过强制它提前计划 , 我们可能会限制我们的政策更加一致 , 并能够在看不见的情况下更好地调整 , 这正是我们想要的 。
马尔可夫决策过程规划问题的一个非常常见的模型是马尔可夫决策过程 , 即MDP 。 在MDP中 , 我们将世界定义为一组状态S , 一组可能采取的行动A , 一个奖励函数R和一个过渡模型P.它们一起构成了元组:
推荐阅读
-
-
车管所提醒:在中国即将有1300万机动车被淘汰,很多人不知道
-
-
体育卡卡说|欧文立山头拒绝复工?美国杨毅点评一针见血:不要给不工作找理由
-
年将|巴西经济部维持该国今年GDP萎缩4.7%预估不变,将通胀预期上调至1.83%
-
时尚柠檬精|减龄效果惊呆众人!,温碧霞、许晴换新发型
-
早餐家庭早餐菜谱,南瓜双色馒头,健康美味营养,动手吧
-
疫病|60亿美元!阿斯利康再度携手第一三共合作抗体偶联药物
-
何有强|惠若琪机场造型不输“超模”,穿条纹衬衫搭配牛仔裤,气场全开
-
-
大话百科天地 将利用于智能电网建设,清洁能源发展,建设新能源汽车充电设施
-
潮人志Fashion|Moncler羽绒服界的“爱马仕”,它凭什么这么受欢迎?
-
上衣|凯特·阿普顿穿蓝色上衣搭牛仔裤简约休闲, 金发墨镜炫酷迷人!
-
拙言Z世代的尝鲜之选?15天超长文体验华为畅享Z有感
-
「美队回应误发私密照」美队克里斯·埃文斯回应误发自己私密照:记得11月3号去投票!
-
生肖@5月8日~14日星座运程:天秤、天蝎、射手、摩羯、水瓶、双鱼座!
-
定焦爱科技 为什么有人喜欢买二手手机?应该有以下原因
-
白鲸天下|美国低调派匿名人士栽赃伊朗,重演揭发俄罗斯剧情,遭13国反对
-
53岁歌手毛宁罕现身,染头发驾豪车生活惬意,曾因吸毒自毁前程
-