如何教会AI像人类一样进行规划？( 四 )

本文插图
图源：unsplash
建立
这个实验是在网络上使用亚马逊Mechanical-Turk（MTurk）。参与者会获得以下任务背景：
假设你是一名矿工，在由隧道连接的金矿网络中工作。每个矿每天产出一定数量的黄金（以“点数”指代）。在每一天，你的工作是从一个起始矿井导航到一个目标矿井，并在目标矿井收集点数。在某些日子里，你可以自由选择任何你喜欢的矿井。此时，你应该试着选一个所得点数最高的矿。而在其他日子里，只有一个矿是可用的。该矿的点呈绿色，其他矿点呈灰色不可选。此时你只能导航到可用矿井。每个矿井的点数都会在上面写明。当前矿井将用粗边界突出显示。你可以使用箭头键（上、下、左、右）在矿井之间导航。一旦你到达目标矿井，按空格键收集点数并开始第二天的工作。实验将有100天（试验）。
下面的图表（左边）呈现给参与者。为了控制潜在的左右不对称性，与之前的实验一样，参与者被随机分配到图中所示的布局或其水平翻转版本。预期的诱导集群也被描述，并编号了节点以供参考（右边）。

本文插图
向MTurk参与者展示的矿井图（左），以及可能的集群（右）
我们将第一种情况称为参与者选择自由式导航到任何矿井，第二种情况是参与者固定选择式导航到指定矿井。参加者在每次试验中都会获得金钱奖励，以阻止随机响应。
在每次试验中，奖励值的变化概率为0.2 。新的奖励从区间[0 ， 300]中随机抽取。然而在试验之间，奖励的分组保持不变：节点1、2和3始终共有一个奖励值，节点4、5和6共有另一种的奖励值，节点7、8、9和10具有第三种奖励值。
前99次试验允许参与者建立一个集群的分层结构。实验的最终试验要求参与者从节点6导航到节点1 。假设奖励诱导了上面所示的集群，我们预测更多的参与者将选择通过节点5的路径，该节点只跨越了一个集群边界，而通过节点7的路径跨越两个集群边界。
推论
我们建立了固定选择案例的模型，假设所有100个试验中的任务都与提交给参与者的第100个试验相同。首先假定静态奖励，在所有的测试中，该奖励保持不变。接下来，假设动态奖励，即每次试验的奖励都会发生变化。
与之前模型预测参与者选择的节点的实验不同，本实验关注的是参与者选择的从起始节点到目标节点的完整路径中的第二个节点。因此，为了将模型与人为数据进行比较，使用广度优先搜索的一种变体（以下称为分层BFS）来预测从起始节点（节点6）到目标节点（节点1）的路径。
静态奖励。对于每个受试者，使用Metropolis-within-Gibbs抽样，从后验样本中取样，并选择最有可能的分层，即具有最高后验概率的分层。然后，使用层次化的BFS ，首先在集群间找路径，然后在集群内的节点间找路径。
动态奖励。对于动态奖励，我们使用在线推断。对于每个模拟的参与者，每个试验的取样只进行10步，然后保存分层并添加有关修改后奖励的信息。接下来从保存的分层开始再次采样。在人为试验中，尽管在群体中奖励总是相等的，但是每个试验开始时奖励被重新随机分配新值的概率为0.2 。
这种推理方法模拟了人类参与者在许多的试验过程中累积学习的方式。为了达到实验目的，假设人们一次只记住一个分层，而不会同时更新多个分层。对数后验被修改以判罚未连接集群，因为在这类推论下，此类集群更加普遍。
结果
人类组和两个模拟组都有95名参与者。相等数量的参与者选择通过节点5和通过节点7的路径为零假设代表，因为在没有任何其他信息的情况下，假设两条路径的长度相等，参与者选择其中一条的可能性相等。

如何教会AI像人类一样进行规划？( 四 )

推荐阅读

青浦区委组织部|青浦区香花桥街道：乘风而来守初心破浪前行勇奋斗

『天天爱逗乐』有些没有？后雨挡的开关在哪？，没什么有些车有后档雨刷

LGD|LMS网友热议LGD淘汰R7：这场比赛真的难看！IG打得过R7吗？

萎缩性咽炎

扬子晚报|摩托车组团上高速，交警及时拦截

「gdp」山东莱芜市整体并入省会济南, 济南的GDP会成为山东第一

大S|曝大S具俊晔离婚？律师称她是无辜遭陷害，汪小菲或将失去抚养权

问董秘|年度公司开展技改项目提升产能，公司冻干人用狂犬病疫苗...，投资者提问：2019

没在排卵期同房会不会怀孕

肚子上面|吃鱼时，从第一筷子夹哪，就能看出这个人的性格，聪明人都先夹这

罗超频道原创百度智能云新架构掀开面纱：知识中台成为差异化竞争优势

七球半个说|红军球迷组团为阿森纳加油，英超6.17重启！利物浦或打一场就夺冠

健康王医师|有血块？一碗茶饮可改善，月经经血发黑

自来卷毛|现在有种想去当教练的冲动！，搞笑GIF：30岁了

黄焖鸡蛋的做法

UFO|罗布泊附近的沙漠腹地可能有不明飞行物ufo基地

昨天上海无新增本地新冠肺炎确诊病例，新增8例境外输入病例

胡尔克|葡媒曝胡尔克下家已确定，1月主动回归波尔图，胡尔克成名的地方

陈冰：她背着丈夫参加好声音，爆红后谎称自己是单身，下台就与丈夫办离婚

产后多少天可以针灸