如何教会AI像人类一样进行规划?( 三 )
建立
让32名受试者按照下面的场景 , 选择下一个要访问的节点 。 下面的图表或是它的翻转版本会被随机地呈现在参与者面前 , 以确保没有人为偏差或未介绍的图形结构 。 我们预测参与者选择的节点会靠近位于更大集群处的标记节点 , 第一种情况下 , 灰色节点位于蓝色节点左侧 , 灰色节点位于蓝色节点右侧 。
以下任务和相关图表会展示给参与者:
你在一个由多个独立矿山和隧道组成的大型金矿中工作 。 矿井布局如下图所示(每个圆圈代表一个矿井 , 每条线代表一个隧道) 。 你每天都有报酬 , 此外当天发现的每克黄金都有10美元的报酬 。 你每天只挖一个矿 , 并记录下当天的黄金产量(以克为单位) 。 在过去的几个月里 , 你发现平均来说 , 每个矿每天产出约15克黄金 。 昨天 , 你在下图中挖了一个蓝色的矿 , 得到了30克黄金 。 你今天要在两个矿井(阴影部分)中挖哪一个?请圈出你选择的矿 。
本文插图
展示给参与者的矿井图纸
我们希望大多数参与者能够自动识别以下用桃色和薰衣草色的节点来表示的不同集群 , 并根据这些集群决定选哪一个集群 。 假设参与者会选择桃色而非薰衣草色的的节点 , 因为标签为30的节点(比平均值大得多)位于桃色集群中 。
本文插图
展示给参与者的和集群类似的矿井图纸
推论
我们使用了Metropolis-within-Gibbs抽样 , 对H近似套用了贝叶斯推导 。 这组样本通过H的后续取样来更新H的每个分量 , 在一个Metropolis-Hastings步骤中对所有其他分量进行条件调节 。 使用高斯随机游走作为连续分量的建议分布 , 并使用有前提的CRP先验作为分组分配的建议分布 。 该方法可以被解释为随机爬山算法后续定义了一个效用函数 。
结果
在真人组和模拟组中各有32名参与者 。 模型输出的前三个集群如下所示(左侧区域) 。 所有前三名的结果都是一样的 , 这表明该模型以很高的可信度识别了有色分组 。
参与者和静态奖励模型的结果显示在下面的条形图(右面区域)中 , 展示了选择下一访问节点2的人类和模拟受试者的比例 。 实心黑线表示平均值 , 黑色虚线表示2.5%和97.5% 。
本文插图
聚类实验中奖赏泛化的结果
下表中的p-value是通过右尾二项检定计算的 , 其中空值假设为二项分布 , 而非选择左、右灰色节点 。 显著性水平取0.05 , 人体实验结果和模型结果均具有统计学意义 。
本文插图
人类行为与静态奖励模型
本文插图
奖励诱导集群
第二个实验的目标是确定奖励是否会诱发集群 。 我们预测 , 即使图的结构本身不会诱导聚类 , 但相邻位置相同奖赏的节点也会聚集在一起 。
Solway等人的研究表明人们更喜欢跨越最少分层边界的路径 。 因此 , 在两条完全相同的路径之间 , 选择其中一条路径的唯一原因是它跨越了更少的分层边界 。 对此可能的反驳是 , 人们会选择的是奖励更高的路径 。
然而 , 在下面详述的建立中 , 只在目标状态下会提供奖励 , 而不是沿着所选的路径渐次累积 。 此外 , 奖励的大小在不同的试验中是不同的 。 因此 , 人们不太可能因该路径的节点有更高的奖励而喜欢上一条路径 。
推荐阅读
- 徐峥|徐峥年初被23家电影公司联名“封杀”,上万人签名抵制,现状如何
- 游戏葡萄|七年磨一剑的任天堂,如何用美术诠释游戏?
- 智能城市崛起,看智能化如何定义未来之城
- 萍姐姐调侃体育|郭艾伦如何回应?国产第一后卫之争愈演愈烈,吴前爆发孙铭徽开挂
- 科技日报|塑料微粒影响几何?人类认知仍不足
- 王者荣耀|李小龙皮肤如何搭配才最帅气,这个回城特效绝配,搭配特效秒变传说皮肤!
- 剖析爱奇艺积分体系,如何做留存和转化
- 金字塔|最早的金字塔始建于35000年前?你相信它是人类文明建造的?
- ZAKER生活|在俄避难的斯诺登,结局如何?,7年前曝光美国“棱镜计划”
- 周到|复盘上海德比首回合 上港如何破申花的密集防守
