如何教会AI像人类一样进行规划?
全文共6235字 , 预计学习时长16分钟
本文插图
图源:unsplash
人类的规划是分层级的 。 无论是做晚餐这种简单的事 , 还是如出国旅行这种稍微复杂的事 , 我们通常都会先在脑海中勾勒出想要实现的目标 , 接着进一步把目标逐步细化为一系列详细的下级目标、下下级目标等 , 最终实际的行动顺序会比最开始的计划复杂得多 。
高效规划需要了解构成分层规划的实质的抽象高级概念 。 至今 , 人类习得这种抽象的概念的过程仍然未知 。
人类能自发构建这种高级概念 , 可以根据所处环境的任务、回报和结构 , 做出高效的规划 。 同时 , 由于这种行为与底层计算的形式化模型是一致的 , 这些发现因此得以建立在既定的计算原则上 , 并和以前分层规划的相关研究联系起来 。
本文插图
分层规划示例
上图描述了一个分层规划的例子 , 即一个人是如何规划离开在剑桥的办公室 , 之后前往印度的Patna购买一件梦想的婚纱装饰 。 圆表示状态 , 箭头表示状态之间的转换 。 每个状态代表了一组较低级别的状态 。 加粗的箭头表示的是通常最先在脑海中闪现的高级状态之间的转换 。
本文插图
贝叶斯视角
当应用于计算式智能体时 , 分层规划使模型具备更高级的规划本领 。 通过假设一个在特定环境结构下的生成过程 , 可以从贝叶斯视角对分层代表进行建模 。 有关这一问题的现有工作包括开发一个计算框架 , 以便在一系列简化过的关于层级结构的假设下获取分层代表 , 即模拟人们如何在无奖励环境的心理表征下 , 创建方便规划的状态集群 。
在为了预测聚类的形成 , 并将该模型与人类的数据进行比较 , 我们创建了一个结合聚类和奖励的层次化发现的贝叶斯认知模型 。
我们分析了静态和动态两种奖励机制下的情况 , 发现人类将奖励信息泛化到高层集群中 , 并利用奖励的信息来创建集群 , 说明模型可以预测奖励泛化和基于奖励的集群形成 。
本文插图
理论背景
心理学和神经科学交叉的关键领域即是形式上理解人类行为与指定行为的关系 。 我们想知道:完成某个任务后 , 人工智能接着会采用什么样的计划和方法?人类是如何发现有用的抽象概念?
这个问题很有趣 , 人类和动物拥有适应新环境的独特能力 , 以前关于动物学习的文献表明 , 这种灵活性源于目标的分层代表 , 这使复杂的任务分解成可延伸至各种环境的低级子程序 。
分组
分组发生在动作被组合成可以实现更远目标的延时的动作序列 , 它通常出现在学习从目标导向系统转移到以刻板的方式执行动作的习惯系统之后 。
从计算的角度来看 , 由于这种分层代表 , 智能体能够在开环中快速执行操作;可以在遇到已知的问题时重复利用熟悉的操作序列;甚至能够调整已建立的动作序列来解决以前遇到过的问题 , 从而更加快速地学习并延长时间范围内的计划 。
智能体不需要考虑与目标相关的细枝末节 , 例如 , 去商店的目标被分解为离开房间、步行和进入商店 , 而不是起床、左脚前移到右脚前移等 。
分层强化学习
智能体如何做出能得到奖励的决定是强化学习的主题 。 分层强化学习(HRL)已成为描述分层学习和规划的主流框架 , 在对HRL建模的研究中 , 已经存在围绕构建模型的潜在方法的观点 。
笔者关注到人们自发地将环境规划为制约规划的状态集群 。 在时间和记忆方面 , 这种分层规划比平面规划更为有效 , 后者包括低级别的行动 , 并有赖于人们有限的工作记忆容量 。
推荐阅读
- 徐峥|徐峥年初被23家电影公司联名“封杀”,上万人签名抵制,现状如何
- 游戏葡萄|七年磨一剑的任天堂,如何用美术诠释游戏?
- 智能城市崛起,看智能化如何定义未来之城
- 萍姐姐调侃体育|郭艾伦如何回应?国产第一后卫之争愈演愈烈,吴前爆发孙铭徽开挂
- 科技日报|塑料微粒影响几何?人类认知仍不足
- 王者荣耀|李小龙皮肤如何搭配才最帅气,这个回城特效绝配,搭配特效秒变传说皮肤!
- 剖析爱奇艺积分体系,如何做留存和转化
- 金字塔|最早的金字塔始建于35000年前?你相信它是人类文明建造的?
- ZAKER生活|在俄避难的斯诺登,结局如何?,7年前曝光美国“棱镜计划”
- 周到|复盘上海德比首回合 上港如何破申花的密集防守
