追着幸福跑|为什么深度神经网络这么难训练?| 赠书( 七 )


练 习
在关于梯度消失问题的讨论中 , 我们采用了
追着幸福跑|为什么深度神经网络这么难训练?| 赠书这个结论 。 假设使用一个不同的激活函数 , 其导数值更大 , 这有助于避免梯度不稳定问题吗?
5.2.4 梯度消失问题普遍存在
如前所述 , 在神经网络中 , 前面的层可能会出现梯度消失或梯度爆炸 。 实际上 , 在使用sigmoid神经元时 , 通常发生的是梯度消失 , 原因见表达式
追着幸福跑|为什么深度神经网络这么难训练?| 赠书 。 为了避免梯度消失问题 , 需要满足
追着幸福跑|为什么深度神经网络这么难训练?| 赠书 。 也许你认为如果
追着幸福跑|为什么深度神经网络这么难训练?| 赠书很大就行了 , 实际上更复杂 。 原因在于项同样依赖:
追着幸福跑|为什么深度神经网络这么难训练?| 赠书 , 其中
追着幸福跑|为什么深度神经网络这么难训练?| 赠书是输入激活值 , 所以在让
追着幸福跑|为什么深度神经网络这么难训练?| 赠书变大时 , 需要保持
追着幸福跑|为什么深度神经网络这么难训练?| 赠书不变小 。 这会是很大的限制 , 因为变大的话 , 也会使得
追着幸福跑|为什么深度神经网络这么难训练?| 赠书变得非常大 。 看看的图像 , 就会发现它出现在的两翼外 , 取到很小的值 。 为了避免出现这种情况 , 唯一的方法是让输入激活值落在相当小的范围内(这个量化的解释见下面第一个问题) 。 这种情况偶尔会出现 , 但通常不会发生 , 所以梯度消失问题更常见 。
问 题
考虑乘积
追着幸福跑|为什么深度神经网络这么难训练?| 赠书 。 假设有
追着幸福跑|为什么深度神经网络这么难训练?| 赠书 , 请完成如下证明 。
(1) 证明这种情况只在
追着幸福跑|为什么深度神经网络这么难训练?| 赠书时才会出现 。
(2) 假设 , 考虑满足
追着幸福跑|为什么深度神经网络这么难训练?| 赠书的输入激活值的集合 。 请证明:满足上述条件的集合跨了一个不超过如下宽度的区间 。
追着幸福跑|为什么深度神经网络这么难训练?| 赠书(3) 证明以上表达式在
追着幸福跑|为什么深度神经网络这么难训练?| 赠书时取最大值(约为0.45) 。 所以 , 即使每个条件都满足 , 仍有


推荐阅读