如何教会AI像人类一样进行规划?( 四 )


如何教会AI像人类一样进行规划?
本文插图
图源:unsplash
建立
这个实验是在网络上使用亚马逊Mechanical-Turk(MTurk) 。 参与者会获得以下任务背景:
假设你是一名矿工 , 在由隧道连接的金矿网络中工作 。 每个矿每天产出一定数量的黄金(以“点数”指代) 。 在每一天 , 你的工作是从一个起始矿井导航到一个目标矿井 , 并在目标矿井收集点数 。 在某些日子里 , 你可以自由选择任何你喜欢的矿井 。 此时 , 你应该试着选一个所得点数最高的矿 。 而在其他日子里 , 只有一个矿是可用的 。 该矿的点呈绿色 , 其他矿点呈灰色不可选 。 此时你只能导航到可用矿井 。 每个矿井的点数都会在上面写明 。 当前矿井将用粗边界突出显示 。 你可以使用箭头键(上、下、左、右)在矿井之间导航 。 一旦你到达目标矿井 , 按空格键收集点数并开始第二天的工作 。 实验将有100天(试验) 。
下面的图表(左边)呈现给参与者 。 为了控制潜在的左右不对称性 , 与之前的实验一样 , 参与者被随机分配到图中所示的布局或其水平翻转版本 。 预期的诱导集群也被描述 , 并编号了节点以供参考(右边) 。
如何教会AI像人类一样进行规划?
本文插图
向MTurk参与者展示的矿井图(左) , 以及可能的集群(右)
我们将第一种情况称为参与者选择自由式导航到任何矿井 , 第二种情况是参与者固定选择式导航到指定矿井 。 参加者在每次试验中都会获得金钱奖励 , 以阻止随机响应 。
在每次试验中 , 奖励值的变化概率为0.2 。 新的奖励从区间[0 , 300]中随机抽取 。 然而在试验之间 , 奖励的分组保持不变:节点1、2和3始终共有一个奖励值 , 节点4、5和6共有另一种的奖励值 , 节点7、8、9和10具有第三种奖励值 。
前99次试验允许参与者建立一个集群的分层结构 。 实验的最终试验要求参与者从节点6导航到节点1 。 假设奖励诱导了上面所示的集群 , 我们预测更多的参与者将选择通过节点5的路径 , 该节点只跨越了一个集群边界 , 而通过节点7的路径跨越两个集群边界 。
推论
我们建立了固定选择案例的模型 , 假设所有100个试验中的任务都与提交给参与者的第100个试验相同 。 首先假定静态奖励 , 在所有的测试中 , 该奖励保持不变 。 接下来 , 假设动态奖励 , 即每次试验的奖励都会发生变化 。
与之前模型预测参与者选择的节点的实验不同 , 本实验关注的是参与者选择的从起始节点到目标节点的完整路径中的第二个节点 。 因此 , 为了将模型与人为数据进行比较 , 使用广度优先搜索的一种变体(以下称为分层BFS)来预测从起始节点(节点6)到目标节点(节点1)的路径 。
静态奖励 。 对于每个受试者 , 使用Metropolis-within-Gibbs抽样 , 从后验样本中取样 , 并选择最有可能的分层 , 即具有最高后验概率的分层 。 然后 , 使用层次化的BFS , 首先在集群间找路径 , 然后在集群内的节点间找路径 。
动态奖励 。 对于动态奖励 , 我们使用在线推断 。 对于每个模拟的参与者 , 每个试验的取样只进行10步 , 然后保存分层并添加有关修改后奖励的信息 。 接下来从保存的分层开始再次采样 。 在人为试验中 , 尽管在群体中奖励总是相等的 , 但是每个试验开始时奖励被重新随机分配新值的概率为0.2 。
这种推理方法模拟了人类参与者在许多的试验过程中累积学习的方式 。 为了达到实验目的 , 假设人们一次只记住一个分层 , 而不会同时更新多个分层 。 对数后验被修改以判罚未连接集群 , 因为在这类推论下 , 此类集群更加普遍 。
结果
人类组和两个模拟组都有95名参与者 。 相等数量的参与者选择通过节点5和通过节点7的路径为零假设代表 , 因为在没有任何其他信息的情况下 , 假设两条路径的长度相等 , 参与者选择其中一条的可能性相等 。


推荐阅读