如何教会AI像人类一样进行规划?( 五 )
本文插图
人类行为与静态和动态奖励模型
如上表所示 , 人类试验和静态奖励建模的结果在α=0.05时具有统计学意义 。 此外 , 如下所示 , 人类试验的结果位于正态分布的第90个百分位数 , 以0.5为中心 , 给出零假设时的预期比例 。
在该图中 , 我们包括由静态奖励模型(第一行) , 具有在断开的组成部分之间形成簇的静态奖励模型(第二行)和动态奖励模型(第三行)标识的聚类 。
本文插图
模拟识别的集群
静态奖励 。 我们使用了1000次Metropolis-in-Gibbs采样来生成每个样本 , 每个样本的老化和滞后均为1 。 静态奖励下的模拟肯定会有利于通过节点5的路径达到统计上有意义的水平 。 此外 , 由于其目的是对人类行为进行建模 , 因此鉴于人类数据也具有统计学意义(0.0321<α= 0.05) , 那么该结果是有意义的 。
本文插图
人类和模拟受试者的选择
动态奖励 。 为了模拟人类试验 , 我们进行了100次试验 , 每次试验进行了10次Metropolis-within-Gibbs迭代 , 以便后方取样 。 burnin和lag再次设置为1 。
尽管比起静态奖励模型下的模拟组 , 动态奖励模型下的模拟者组离假设更远 , 但比起静态奖励 , 在线推理方法似乎更适合创建人类数据的模型 。 在动态奖励模型下 , 56名人类参与者和54名模拟参与者选择了节点5(3.4%的差异) , 而静态奖励模型下的64名模拟参与者(18.5%的差异) 。
上面的柱状图显示了选择路径的第二个节点是节点5的人类和模拟者的比例 。 实心黑线表示在给出零假设的情况下的预期比例 , 黑色虚线表示第10和第90个百分位 。
人类似乎会自发地将环境组织成支持分层规划的状态集群 , 从而通过将问题分解为不同抽象级别的子问题 , 来解决具有挑战性的问题 。 人们总是依赖这种等级分明的陈述来完成大大小小的任务 , 而他们往往第一次尝试就成功了 。
本文插图
图源:unsplash
我们证明了一个最优分层不仅取决于图的结构 , 而且还取决于环境的可视特征 , 即奖励的分布 。 我们建立了分层贝叶斯模型 , 以了解聚类如何诱发静态奖励 , 以及静态和动态奖励如何诱发聚类 , 并发现就我们的模型捕获人类行为的紧密程度而言 , 大多数结果在统计层面上都是显著的 。
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
【如何教会AI像人类一样进行规划?】如转载 , 请后台留言 , 遵守转载规范
推荐阅读
- 徐峥|徐峥年初被23家电影公司联名“封杀”,上万人签名抵制,现状如何
- 游戏葡萄|七年磨一剑的任天堂,如何用美术诠释游戏?
- 智能城市崛起,看智能化如何定义未来之城
- 萍姐姐调侃体育|郭艾伦如何回应?国产第一后卫之争愈演愈烈,吴前爆发孙铭徽开挂
- 科技日报|塑料微粒影响几何?人类认知仍不足
- 王者荣耀|李小龙皮肤如何搭配才最帅气,这个回城特效绝配,搭配特效秒变传说皮肤!
- 剖析爱奇艺积分体系,如何做留存和转化
- 金字塔|最早的金字塔始建于35000年前?你相信它是人类文明建造的?
- ZAKER生活|在俄避难的斯诺登,结局如何?,7年前曝光美国“棱镜计划”
- 周到|复盘上海德比首回合 上港如何破申花的密集防守
