布朗运动实验视频 布朗运动( 二 )
损失函数的负梯度 。
人们首先猜测最小值的初始值,然后计算序列:
遵循迭代过程:
梯度下降法递归 。
其中γ是学习率,每次迭代N时允许改变学习率 。如果损失函数L及其梯度具有一定的性质,按照一定的协议选择学习率的变化,保证局部收敛(只有当L是凸函数时才能收敛到全局极小值,因为对于凸函数,任何局部极小值也是全局极小值) 。
随机梯度下降(SGD)和小批量梯度下降基本GD算法在每次迭代中扫描完整的数据集,而SGD和小批量GD只使用训练数据的子集 。SGD在每次迭代中使用单个训练数据样本更新梯度,即在扫描训练数据时,对每个训练样本进行上述W更新 。小批量GD使用小批量训练实例进行参数更新 。
让我们从数学上解释一下 。用于一般训练集:
n个样本的训练集 。
损失函数的一般形式是:
一般损失函数 。
一个训练的例子,当一个小批量的梯度下降时,和只在一个批量内 。特别是SGD只用一个样本 。与普通GD相比,这些进程有两个主要优势:速度更快,可以处理更大的数据集 。
G和G的定义如下,在这种情况下我们有:
【布朗运动实验视频 布朗运动】在下面的动画中,演示了SGD的收敛以及其他方法(本文中没有提到的这些其他方法是SGD的最新改进) 。
机器学习与物理,作为朗之万过程的梯度下降下一步对争论至关重要 。为了让读者理解主旨,我省略了一些严格的细节 。
我们可以将小批量梯度写成总梯度和正态分布的η之和:
现在将这个表达式代入GD迭代表达式,我们得到:
小批量梯度下降迭代步骤
一个优雅的联系将小批量梯度下降迭代的表达式与朗之万方程进行比较,我们可以立即注意到它们的相似性 。更准确地说,它们通过以下方式变得相同:
将γ代入δt,我们发现:
因此,SGD或小批量梯度下降算法在形式上类似于Langevin过程,这解释了如果学习速率按照前述协议变化,它们为什么有非常高的概率选择全局最小值 。
这个结果并不新鲜 。事实上,有很多证据表明,在通常的梯度下降递归中添加一个噪声项会使算法收敛到全局最小值 。
结论在本文中,我表明随机或小批量梯度下降被视为Langevin随机过程,我们可以理解为什么这些算法可以通过在学习速率中包括额外的随机化水平作为全局优化器工作得如此好 。这是一个好结果 。说明从多个角度审视一个问题通常是非常有用的 。
推荐阅读
- 附近离我最近的ktv 夜总会视频
- 美人心计全集免费视频 杨幂美人心计
- 长沙广益中学高中特长生招生 长沙广益实验中学
- 抖音规范探店视频 大连、武汉等8个城市率先开展试点
- 旱冰鞋教程视频?单排溜冰教程,要详细点的?
- 分量视频线接法图解,dvd分量视频接口怎么接?
- 雷笋的做法视频?雷笋怎么吃?
- 安全套测试员工作视频?世界上最有意思的工作是什么?
- 刘若英陈昇访谈视频 桃色蛋白质 刘若英
- 吴敏霞的有关视频 吴敏霞透视拍照
