如何教会AI像人类一样进行规划?( 二 )


在下图中 , 粗节点和粗边表示必须在短期记忆范围内考虑和维护它们 , 以便计算规划 , 灰色箭头表示集群成员 。 低级别图G中 , 从状态s到状态g的规划所需步骤至少是与实际执行计划的步骤相同(顶部) , 引入高级图H缓解了这一问题 , 降低了计算成本(中间) 。 同时 , 进一步扩展递归层次减少了规划(底部)所涉及的时间和内存 。
如何教会AI像人类一样进行规划?
本文插图
Solway等人提供了一个最优分层的正式定义 , 但他们没有明确大脑可能如何发现它 。 笔者假设了一个最优分层取决于环境结构 , 包括图结构和环境可观察特征的分布 , 特别是奖励 。
模型
假设智能体将其环境视作一个图 , 其中节点是在环境中的状态 , 边是状态之间的转变 。 这些状态和转变可以是抽象的 , 同样 , 它也可以如地铁站及其中的行驶的列车路线一样是具体的 。
结构
将可观测环境表示为图G=(V , E) , 潜分层表示为H 。 G和H都是无权无向的 , H由集群组成 , 其间G中的每个低级节点恰好属于一个集群 , 以及连接这些集群的桥或高级边 。 集群k和k′之间的桥只有在某些v , v′∈V之间存在一条边使v∈k和v′∈k'的情况下才会存在 , 即H中的每一条高级边在G中都有一条对应的低级边 。
在下图中 , 颜色表示集群分配 。 规划时规划者会考虑黑色边缘 , 但忽略灰色边缘 , 粗边对应于集群之间的转变 , 集群w和z之间的转变是通过一个桥来完成的 。
如何教会AI像人类一样进行规划?
本文插图
高级图(顶部)和低级图(底部)的例子
在添加奖励之前 , 学习算法在发现最优分层的时候会受以下制约:
· 小集群
· 集群内的紧密连接
· 集群间的稀疏连接
然而 , 我们不希望集群太小——在极端情况下 , 每个节点都是自己的集群 , 这让层次结构毫无用处 。 此外 , 虽然跨集群的稀疏连接是我们所期望的 , 但我们也希望集群之间的桥梁仍存 , 借以保留底层图片的属性 。
我们使用了离散时间随机的中餐馆过程(CRP)作为聚类的先验 。 分层发现在倒置生成模型以获得分层H后验概率的过程中实现 。 在中正式出现的生成模型生成了该分层 。
奖励
在图G的语境中 , 奖励可以解释为顶点的可视特征 。 由于人们通常基于可视的特征进行聚类 , 因此由奖励诱导的聚类模型是合理的 。 此外 , 我们设定了每个状态都提供一个随机确定的奖励 , 而智能体的目标是最大化总奖励 。
因为我们假设集群会诱导奖励 , 所以建立的每个集群具有均等回报 。 该集群中的每个节点都有一个从均等奖励集群为中心的分布中提取的均等奖励 。 最后 , 每个可视奖励都是从以该节点的均等奖励为中心的分布中提取的 。
为了简化推论 , 首先假设报酬是恒定的、静态的 。 某些在固定概率的观测值之间变化的奖励被标记为动态的 。
我们用了两个实验来验证关于人类行为的假设 , 以及了解模型的预测能力 。 特别的是 , 我们研究了集群在多大程度上推动了对奖励的推导 , 以及在多大程度上奖励驱动了集群的形成 。 对于每个实验 , 我们都收集人类数据并将其与模型的预测进行比较 。
如何教会AI像人类一样进行规划?
本文插图
集群诱导奖励
如何教会AI像人类一样进行规划?
本文插图
图源:unsplash
第一个实验的目标是了解奖励在状态集群中普及的方式 。 我们测试了图形结构是否驱动了集群的形成 , 以及人们是否将在一个节点上观察到的奖励推广到该节点所属的集群 。


推荐阅读