如何教会AI像人类一样进行规划？( 五 )

本文插图
人类行为与静态和动态奖励模型
如上表所示，人类试验和静态奖励建模的结果在α=0.05时具有统计学意义。此外，如下所示，人类试验的结果位于正态分布的第90个百分位数，以0.5为中心，给出零假设时的预期比例。
在该图中，我们包括由静态奖励模型(第一行) ，具有在断开的组成部分之间形成簇的静态奖励模型(第二行)和动态奖励模型(第三行)标识的聚类。

本文插图
模拟识别的集群
静态奖励。我们使用了1000次Metropolis-in-Gibbs采样来生成每个样本，每个样本的老化和滞后均为1 。静态奖励下的模拟肯定会有利于通过节点5的路径达到统计上有意义的水平。此外，由于其目的是对人类行为进行建模，因此鉴于人类数据也具有统计学意义(0.0321<α= 0.05) ，那么该结果是有意义的。

本文插图
人类和模拟受试者的选择
动态奖励。为了模拟人类试验，我们进行了100次试验，每次试验进行了10次Metropolis-within-Gibbs迭代，以便后方取样。 burnin和lag再次设置为1 。
尽管比起静态奖励模型下的模拟组，动态奖励模型下的模拟者组离假设更远，但比起静态奖励，在线推理方法似乎更适合创建人类数据的模型。在动态奖励模型下， 56名人类参与者和54名模拟参与者选择了节点5（3.4%的差异），而静态奖励模型下的64名模拟参与者（18.5%的差异）。
上面的柱状图显示了选择路径的第二个节点是节点5的人类和模拟者的比例。实心黑线表示在给出零假设的情况下的预期比例，黑色虚线表示第10和第90个百分位。
人类似乎会自发地将环境组织成支持分层规划的状态集群，从而通过将问题分解为不同抽象级别的子问题，来解决具有挑战性的问题。人们总是依赖这种等级分明的陈述来完成大大小小的任务，而他们往往第一次尝试就成功了。

本文插图
图源：unsplash
我们证明了一个最优分层不仅取决于图的结构，而且还取决于环境的可视特征，即奖励的分布。我们建立了分层贝叶斯模型，以了解聚类如何诱发静态奖励，以及静态和动态奖励如何诱发聚类，并发现就我们的模型捕获人类行为的紧密程度而言，大多数结果在统计层面上都是显著的。

本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
【如何教会AI像人类一样进行规划？】如转载，请后台留言，遵守转载规范

如何教会AI像人类一样进行规划？( 五 )

推荐阅读

新华网|多伦多持续遭遇高温天气

人民日报客户端西藏频道|麦地卡易地搬迁群众实现就近就业

V领|秋天的风，凉爽、舒适；夏天的衣服不要太快收起来哦！

中华网游戏综合|《LOL》手游英雄专属技能改动安妮/女枪Q变非指向性

湖南卫视|《中餐厅4》迎史上最难开业：黄晓明连遭拒绝赵丽颖紧张怕沟通？

怎样委婉的拒绝不是你直属上司的要求和无理建议

北京一物流企业取消快递员底薪无底薪对快递员影响几何？

虎扑足球|仅次于2002/03赛季的巴萨，拜仁本赛季欧冠豪取8连胜

启航20 小米十周年主角来了

全国党媒信息公共平台|重庆三环高速明年全面建成

王耀庆|今天最开心的明星一定是王耀庆

宝妈可以做什么副业比较好?宝妈为什么要做副业

血管硬化不用怕，这5种检查可以帮到你，关于它的4大诱因要警惕了

王小二育儿堂|还一直扭动身体，两种可能父母要区别对待，宝宝睡觉时总哼唧

怎样评价家有女友第250话?

恩比德|2.9亿合砍21分，正负值-20！恩比德独木难支，76人最该放弃谁？

美发|男士“飞机头”发型有3种长度？秋季这样理发最个性，谁剪谁帅气

挖贝网|营业费用增加，森电电力2020年上半年净利200.88万下滑31.97%

美国给台湾人免签政策，算不算对大陆政府的挑衅

钟南山|钟南山团队参与研发核酸检测车南京投用：可日检10万人次