如何教会AI像人类一样进行规划?( 五 )


如何教会AI像人类一样进行规划?
本文插图
人类行为与静态和动态奖励模型
如上表所示 , 人类试验和静态奖励建模的结果在α=0.05时具有统计学意义 。 此外 , 如下所示 , 人类试验的结果位于正态分布的第90个百分位数 , 以0.5为中心 , 给出零假设时的预期比例 。
在该图中 , 我们包括由静态奖励模型(第一行) , 具有在断开的组成部分之间形成簇的静态奖励模型(第二行)和动态奖励模型(第三行)标识的聚类 。
如何教会AI像人类一样进行规划?
本文插图
模拟识别的集群
静态奖励 。 我们使用了1000次Metropolis-in-Gibbs采样来生成每个样本 , 每个样本的老化和滞后均为1 。 静态奖励下的模拟肯定会有利于通过节点5的路径达到统计上有意义的水平 。 此外 , 由于其目的是对人类行为进行建模 , 因此鉴于人类数据也具有统计学意义(0.0321<α= 0.05) , 那么该结果是有意义的 。
如何教会AI像人类一样进行规划?
本文插图
人类和模拟受试者的选择
动态奖励 。 为了模拟人类试验 , 我们进行了100次试验 , 每次试验进行了10次Metropolis-within-Gibbs迭代 , 以便后方取样 。 burnin和lag再次设置为1 。
尽管比起静态奖励模型下的模拟组 , 动态奖励模型下的模拟者组离假设更远 , 但比起静态奖励 , 在线推理方法似乎更适合创建人类数据的模型 。 在动态奖励模型下 , 56名人类参与者和54名模拟参与者选择了节点5(3.4%的差异) , 而静态奖励模型下的64名模拟参与者(18.5%的差异) 。
上面的柱状图显示了选择路径的第二个节点是节点5的人类和模拟者的比例 。 实心黑线表示在给出零假设的情况下的预期比例 , 黑色虚线表示第10和第90个百分位 。
人类似乎会自发地将环境组织成支持分层规划的状态集群 , 从而通过将问题分解为不同抽象级别的子问题 , 来解决具有挑战性的问题 。 人们总是依赖这种等级分明的陈述来完成大大小小的任务 , 而他们往往第一次尝试就成功了 。
如何教会AI像人类一样进行规划?
本文插图
图源:unsplash
我们证明了一个最优分层不仅取决于图的结构 , 而且还取决于环境的可视特征 , 即奖励的分布 。 我们建立了分层贝叶斯模型 , 以了解聚类如何诱发静态奖励 , 以及静态和动态奖励如何诱发聚类 , 并发现就我们的模型捕获人类行为的紧密程度而言 , 大多数结果在统计层面上都是显著的 。
如何教会AI像人类一样进行规划?
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
【如何教会AI像人类一样进行规划?】如转载 , 请后台留言 , 遵守转载规范


推荐阅读