追着幸福跑|为什么深度神经网络这么难训练？| 赠书( 六 ) 导读：本文内容节选自《深入浅出神经网

5.2.1 为何出现梯度消失
梯度的完整表达式如下：
除了最后一项，该表达式几乎就是一系列
的乘积。为了理解每一项，先看看sigmoid函数的导数的图像，如图5-11所示。
该导数在
时达到峰值。如果使用标准方法来初始化神经网络中的权重，那么会用到一个均值为0、标准差为1的高斯分布，因此所有权重通常会满足
。基于这些信息，可知有
。另外，在对所有这些项计算乘积后，最终结果肯定会呈指数级下降：项越多，乘积下降得越快。梯度消失的原因初见端倪。
更具体一点，比较和稍后面一个偏置的梯度，例如。当然，还未明确给出的表达式，但计算方式是和相同的。二者的对比如图5-12所示。
这两个表达式有很多项相同，但多了两项。由于这些项都小于
，因此会是的
或者更小，这其实就是梯度消失的根本原因。
当然，以上并非梯度消失问题的严谨证明，而是一个不太正式的论断，可能还有别的一些原因。我们尤其想知道权重在训练中是否会增长，如果会，项
是否不再满足这个条件。实际上，如果项变得很大——超过1——那么梯度消失问题将不会出现。当然，这时梯度会在反向传播中呈指数级增长，即出现了梯度爆炸问题。
5.2.2 梯度爆炸问题
下面分析梯度爆炸的原因。举的例子可能不那么自然：固定神经网络中的参数，以确保发生梯度爆炸。即使不太自然，这个例子也能说明梯度爆炸确实会发生（而非假设）。
5.2.3 梯度不稳定问题
根本问题其实不是梯度消失问题或梯度爆炸问题，而是前面的层上的梯度来自后面的层上项的乘积。当层过多时，神经网络就会变得不稳定。让所有层的学习速度都近乎相同的唯一方式是所有这些项的乘积达到一种平衡。如果没有某种机制或者更加本质的保证来达到平衡，那么神经网络就很容易不稳定。简而言之，根本问题是神经网络受限于梯度不稳定问题。因此，如果使用基于梯度的标准学习算法，那么不同的层会以不同的速度学习。

追着幸福跑|为什么深度神经网络这么难训练？| 赠书( 六 )

推荐阅读

巩俐|巩俐与张艺谋28年前合照，那时巩俐清纯可人笑容甜美！

冰妹|墨香家男主害怕什么？师尊怕眼泪，羡羡怕家规，那怜怜呢？

易快讯TB荣耀7英寸大屏机型曝光，将支持DCI-P3广色域

穿衣搭配|《半是蜜糖半是伤》大结局，姐姐们的穿搭你还没学起来？

『周扒皮看热闹』油耗5.3L，从17.98万跌至8.49万，却仍被忽略，可惜的“日产造”

「小儿湿疹」小儿湿疹多久能治好做好护理防止复发

女性养生|女性再没钱，3种食物不能少，美容护肤，滋肝明目，延缓肌肤衰老

行李托运是不是和飞机一块到达目的地

天狼星是夜空中最亮的恒星肉眼看来,星空中最亮的恒星是

虎年的祝福语句虎年的祝福语句成语

篮球记者杨克己就像我当年崇拜乔丹一样，纳什回忆与科比做队友：年轻人崇拜科比

名下已有房贷在还款中，还能否再贷款

「小院食光」红烧猪蹄就该这样做，软烂咸香不油腻，吃起来特别过瘾！

邓紫棋不在▲可能是最坚硬的玻璃手机！红米Note7正式发布刷新手机质保记录

桑维亮到丹寨开展＂春节＂走访慰问

全省累计@湖北新增确诊病例0例湖北新增无症状感染者17例

singer的意思?singer怎么读?

低血糖症|糖尿病常见并发症——低血糖症

哪些人不宜食用餐包？餐包的副作用有哪些?

银质针疗法利和弊都有什么呢？