如何教会AI像人类一样进行规划？( 二 )

在下图中，粗节点和粗边表示必须在短期记忆范围内考虑和维护它们，以便计算规划，灰色箭头表示集群成员。低级别图G中，从状态s到状态g的规划所需步骤至少是与实际执行计划的步骤相同（顶部），引入高级图H缓解了这一问题，降低了计算成本（中间）。同时，进一步扩展递归层次减少了规划（底部）所涉及的时间和内存。

本文插图
Solway等人提供了一个最优分层的正式定义，但他们没有明确大脑可能如何发现它。笔者假设了一个最优分层取决于环境结构，包括图结构和环境可观察特征的分布，特别是奖励。
模型
假设智能体将其环境视作一个图，其中节点是在环境中的状态，边是状态之间的转变。这些状态和转变可以是抽象的，同样，它也可以如地铁站及其中的行驶的列车路线一样是具体的。
结构
将可观测环境表示为图G=（V ， E），潜分层表示为H 。 G和H都是无权无向的， H由集群组成，其间G中的每个低级节点恰好属于一个集群，以及连接这些集群的桥或高级边。集群k和k′之间的桥只有在某些v ， v′∈V之间存在一条边使v∈k和v′∈k'的情况下才会存在，即H中的每一条高级边在G中都有一条对应的低级边。
在下图中，颜色表示集群分配。规划时规划者会考虑黑色边缘，但忽略灰色边缘，粗边对应于集群之间的转变，集群w和z之间的转变是通过一个桥来完成的。

本文插图
高级图（顶部）和低级图（底部）的例子
在添加奖励之前，学习算法在发现最优分层的时候会受以下制约：
· 小集群
· 集群内的紧密连接
· 集群间的稀疏连接
然而，我们不希望集群太小——在极端情况下，每个节点都是自己的集群，这让层次结构毫无用处。此外，虽然跨集群的稀疏连接是我们所期望的，但我们也希望集群之间的桥梁仍存，借以保留底层图片的属性。
我们使用了离散时间随机的中餐馆过程（CRP）作为聚类的先验。分层发现在倒置生成模型以获得分层H后验概率的过程中实现。在中正式出现的生成模型生成了该分层。
奖励
在图G的语境中，奖励可以解释为顶点的可视特征。由于人们通常基于可视的特征进行聚类，因此由奖励诱导的聚类模型是合理的。此外，我们设定了每个状态都提供一个随机确定的奖励，而智能体的目标是最大化总奖励。
因为我们假设集群会诱导奖励，所以建立的每个集群具有均等回报。该集群中的每个节点都有一个从均等奖励集群为中心的分布中提取的均等奖励。最后，每个可视奖励都是从以该节点的均等奖励为中心的分布中提取的。
为了简化推论，首先假设报酬是恒定的、静态的。某些在固定概率的观测值之间变化的奖励被标记为动态的。
我们用了两个实验来验证关于人类行为的假设，以及了解模型的预测能力。特别的是，我们研究了集群在多大程度上推动了对奖励的推导，以及在多大程度上奖励驱动了集群的形成。对于每个实验，我们都收集人类数据并将其与模型的预测进行比较。

本文插图
集群诱导奖励

本文插图
图源：unsplash
第一个实验的目标是了解奖励在状态集群中普及的方式。我们测试了图形结构是否驱动了集群的形成，以及人们是否将在一个节点上观察到的奖励推广到该节点所属的集群。

如何教会AI像人类一样进行规划？( 二 )

推荐阅读

石油资源@一旦美俄爆发战争，哪里会成他们的交战地？全球目光都看向这一处

肖战真的和李沁在一起了吗,为什么肖战总是和李沁一起-

疫情持续令美国小企业无法回血：贷款违约率激增，四分之一考虑关门

#科技吧#空客、罗罗宣布停止E-Fan X混动飞机项目，受新冠疫情影响

光影追梦的足球1|缘分与桃花人见人爱，荣获满意爱情的四大生肖！，预计10月底

高考超燃打call版无价之姐|【A到爆】高考超燃打call版无价之姐是怎么回事?什么情况?终于真相了,原来是这样!

美国南卡罗来纳州发生枪击案|美国南卡罗来纳州发生枪击案有多少人在这起事件中受伤？

好声音|说到做到，《好声音》年度最具安全感导师出炉，这些学员太幸福了

新华社|内塔尼亚胡给联合政府“最后机会”

普京|比普京还强硬！公开警告白宫，扬言要让美国跪下，白宫却束手无策

小米电视被禁止安装软件！教你最新解决办法

诈骗|涉案7亿被抓90人！茶芝兰奶茶收割加盟商套路曝光

MINZI直播淘宝直播运营篇-快速提升直播间权重排名

黄金茶保质期多久,保靖黄金茶价格

时光的彼岸|天这么冷, 坐我的顺风车吧, 我不是坏人，幽默笑话：

生猪价格|10月10日猪价“大跌”！15元猪肉啥时候能来？听专家怎么说

大嘴巴电影▲面对出轨，章泽天段位比手撕张大奕的蒋凡原配高级，同是总裁夫人

古龙笔下最完美的大侠，能把敌人变成朋友，打架更是从来没输过

曾经觉得“不会再爱了”的你，又产生过爱情吗

中国新闻网|专访香港厂商会会长吴宏斌：港商一向灵活受美国影响微乎其微