苏眠月|使用价值迭代网络进行规划( 二 ) 虽然强化学习算法的设计使得该策略应该

假设我们的代理位于地图的左下角，并且必须安全地导航到绿色区块。必须区分规划轨迹或寻找政策。如果我们计划一个轨迹，我们将得到一个序列，指定应该采取行动的顺序，例如：（向上，向上，向右，向右，向右）。如果我们的问题是确定性的，选择一个方向会使我们的代理人在这个方向上有100％的机会，那么这将对应于轨迹：
但回到我们的例子，我们如何才能找到如上图所示的最优政策？对于称为值迭代的这类问题，存在一种经典算法。该算法的作用是计算当前处于某种状态可以实现的长期利益，通过提出问题"如果我从这个状态开始，我能获得的最大利润是多少？" 。这个数量被称为MDP术语中的状态值，直观上很容易看出，如果我们知道每个州的价值，我们可以尝试始终转移到具有更高价值的国家并从中获益。
假设我们知道问题中所有状态的最优值;V*（s），我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*（S ， A）。

苏眠月|使用价值迭代网络进行规划( 二 )

推荐阅读

潮人志Fashion|Moncler羽绒服界的“爱马仕”，它凭什么这么受欢迎？

53岁歌手毛宁罕现身，染头发驾豪车生活惬意，曾因吸毒自毁前程

何有强|惠若琪机场造型不输“超模”，穿条纹衬衫搭配牛仔裤，气场全开

拙言Z世代的尝鲜之选？15天超长文体验华为畅享Z有感

体育卡卡说|欧文立山头拒绝复工？美国杨毅点评一针见血：不要给不工作找理由

上衣|凯特·阿普顿穿蓝色上衣搭牛仔裤简约休闲, 金发墨镜炫酷迷人!

男朋友快要去国外学飞了，想问问前辈们有啥忠告

如何进行基础护肤基础护肤步骤

早餐家庭早餐菜谱，南瓜双色馒头，健康美味营养，动手吧

新民红红木家具怎么样

「美队回应误发私密照」美队克里斯·埃文斯回应误发自己私密照：记得11月3号去投票！

生肖@5月8日~14日星座运程：天秤、天蝎、射手、摩羯、水瓶、双鱼座！

年将|巴西经济部维持该国今年GDP萎缩4.7%预估不变，将通胀预期上调至1.83%

如何学好化学(如何学好化学高中化学)

定焦爱科技为什么有人喜欢买二手手机？应该有以下原因

时尚柠檬精|减龄效果惊呆众人！，温碧霞、许晴换新发型

大话百科天地将利用于智能电网建设，清洁能源发展，建设新能源汽车充电设施

车管所提醒：在中国即将有1300万机动车被淘汰，很多人不知道

疫病|60亿美元！阿斯利康再度携手第一三共合作抗体偶联药物

白鲸天下|美国低调派匿名人士栽赃伊朗，重演揭发俄罗斯剧情，遭13国反对