AlphaGo背后这项核心技术,后来怎么样了?( 二 )


在图1.3中 , 当智能体从一块石板成功跨过障碍到达下一块石板上时 , 应该给予其相应的正向奖励 , 比如得分加1 。 当智能体未能成功跨过障碍(从石板上掉落)到达下一块石板时 , 应该给予其惩罚(负向奖励) , 比如得分减1 。
在RL环境中 , 由机器学习算法控制的自主智能体在时间步t从其环境观察状态st 。 智能体通过在状态st中执行动作a来对环境进行响应 。 当智能体执行完动作时 , 环境和智能体将根据当前的状态和所选的动作转换到新的状态st+1 。
状态是对环境的充分统计 , 包括智能体选取最优动作的所有必要信息 , 也可以包括智能体自身的一些部分(例如制动器和传感器的位置) 。
最优的动作顺序由环境提供的奖励决定 。 每次环境转换到新状态时 , 它还会向智能体提供标量奖励rt+1作为反馈 。 智能体的目标是学习一种策略(控制策略)π: S→A , 以使得预期回报(累积折扣奖励)最大化 , 其中S为外界环境状态的集合S={s1, s2, ... ,st, st+1, ...} , A为动作的集合A={a1, a2, ... ,ak} 。
给定状态 , 智能体根据策略返回要执行的动作 , 最优策略是最大化环境预期回报的任何策略 。 在这方面 , RL旨在解决与最优控制相同的问题 。
然而 , 与最优控制不同 , RL中的挑战是智能体需要通过试错学习的方法来了解在环境中采取某种动作后所产生的结果 , 因此 , 智能体无法获得状态转换的动态模型 。 智能体与环境的每次交互都会产生相应的信息 , 然后利用这些信息来更新其自身的知识 。 这种感知–动作–学习循环如图1.4所示 。
AlphaGo背后这项核心技术,后来怎么样了?
本文插图

▲图1.4 感知-动作-学习循环结构
通过智能体与环境进行交互来感知环境、依靠策略选择动作 , 从而获得最大累积奖赏值 。 在时间t , 智能体从环境感知状态st , 然后使用其策略选择动作at 。 一旦执行了动作 , 环境就会转换到下一个状态 , 并提供下一个状态st+1和奖励rt+1作为新的反馈 。
智能体以序列(st, at, st+1, rt+1)的形式使用状态转换的知识来学习和改进其策略 。 如果RL系统中的某种行为能够获得正的奖励 , 那么系统便会加强产生该动作的趋势 , 称之为正反馈;反之 , 系统便会减弱产生该动作的趋势 , 称之为负反馈 。
在深度神经网络融入RL之前 , 虽然RL在过去取得了一定的进展 , 但是之前的RL方法缺乏可扩展性 , 并且在本质上仅限于维度相当低的问题 。
存在这些限制的主要原因是之前的RL算法与其他算法具有相同的复杂性 , 比如 , 存储器复杂性、计算复杂性 , 以及在机器学习算法情况下的样本复杂性 。 因此 , 之前的RL算法只是适用于比较少的领域 , 例如 , 过程控制、调度管理和机器人控制等 , 并没有得到广泛的应用 。
幸运的是 , 随着DL的兴起 , 深度神经网络为我们克服这些问题提供了新的工具 。 深度神经网络具有强大的函数逼近和表示学习特性 , 使我们解决高维、复杂场景下的RL问题成为可能 。
03 深度强化学习简介
近年来 , DL作为一大热点研究方向对机器学习的许多领域都产生了重大影响 , 大大提高了对象检测、语音识别和语言翻译等任务的技术水平 。
DL最重要的一个特性是深度神经网络可以自动找到高维数据(例如图像、文本和音频)的低维表示(特征) 。 通过将归纳偏差制作成神经网络架构 , 特别是层次化表示 , 机器学习从业者在解决维度灾难方面取得了有效进展 。 DL方法擅长对事物的感知和表达 , RL方法擅长学习解决问题的策略 。
为了更好地发挥DL和RL的优势 , 谷歌人工智能研究团队DeepMind创造性地将具有强大感知力的DL方法和具有优秀决策力的RL方法相结合 , 在RL中使用DL算法定义了DRL领域 。 深度神经网络的引入让我们能够以更加具有创新性的方式来实现对自主智能体的开发 。


推荐阅读