假设我们的代理位于地图的左下角 , 并且必须安全地导航到绿色区块 。 必须区分规划轨迹或寻找政策 。 如果我们计划一个轨迹 , 我们将得到一个序列 , 指定应该采取行动的顺序 , 例如:(向上 , 向上 , 向右 , 向右 , 向右) 。 如果我们的问题是确定性的 , 选择一个方向会使我们的代理人在这个方向上有100%的机会 , 那么这将对应于轨迹:
但回到我们的例子 , 我们如何才能找到如上图所示的最优政策?对于称为值迭代的这类问题 , 存在一种经典算法 。 该算法的作用是计算当前处于某种状态可以实现的长期利益 , 通过提出问题"如果我从这个状态开始 , 我能获得的最大利润是多少?" 。 这个数量被称为MDP术语中的状态值 , 直观上很容易看出 , 如果我们知道每个州的价值 , 我们可以尝试始终转移到具有更高价值的国家并从中获益 。
假设我们知道问题中所有状态的最优值;V*(s) , 我们现在可以定义从我们的州采取特定行动并从此采取最佳行动的价值;Q*(S , A) 。
推荐阅读
-
-
-
开幕|高清大图|来看看2020中国网络诚信大会开幕现场
-
创始人张一鸣:10年面试2000人,我发现混的好的人,全都有同一个特质
-
奔驰GLE|本田冠道和凯迪拉克XT5,这两款车型该如何选择?谈谈我的建议
-
-
青铜上王者|S10主题曲发布,难听、广告太多被喷,可这些彩蛋你找到了吗?
-
【人民网】侧记:国务院联防联控机制发布会亮相 回应关切更
-
-
产业:“产业就是定心丸”——广西阳朔依托养殖业助脱贫见闻
-
穿搭|张韶涵穿“肥肥衫”走机场,虽然看着好似圆了两圈,但依旧不太胖
-
宫本武藏|金秋永久皮肤宝箱选谁好?霸王丸烂大街先别选
-
「」新房硬装快要收尾了, 吊顶和地砖效果很漂亮, 忍不住晒晒
-
科技阿维|双曲面屏+顶级防水,麒麟980旗舰加速退场,从5488元降至3388元
-
为啥全国各地的肉松卷基本上都是只在两头蘸满了肉松而里面都是沙拉酱
-
【小豆豆说健康】羡慕李小冉,靠自己活成人生赢家,不服输的陈数:从小自卑被嫌丑
-
-
阿娇头部表面一层已缝66针:阿娇晕倒撞破头部 经纪人称其伤口表面一层已缝66针
-
-