追着幸福跑|为什么深度神经网络这么难训练?| 赠书( 七 )
练 习
在关于梯度消失问题的讨论中 , 我们采用了
这个结论 。 假设使用一个不同的激活函数 , 其导数值更大 , 这有助于避免梯度不稳定问题吗?
5.2.4 梯度消失问题普遍存在
如前所述 , 在神经网络中 , 前面的层可能会出现梯度消失或梯度爆炸 。 实际上 , 在使用sigmoid神经元时 , 通常发生的是梯度消失 , 原因见表达式 。 为了避免梯度消失问题 , 需要满足
。 也许你认为如果
很大就行了 , 实际上更复杂 。 原因在于项同样依赖:
, 其中
是输入激活值 , 所以在让
变大时 , 需要保持
不变小 。 这会是很大的限制 , 因为变大的话 , 也会使得
变得非常大 。 看看的图像 , 就会发现它出现在的两翼外 , 取到很小的值 。 为了避免出现这种情况 , 唯一的方法是让输入激活值落在相当小的范围内(这个量化的解释见下面第一个问题) 。 这种情况偶尔会出现 , 但通常不会发生 , 所以梯度消失问题更常见 。
问 题
考虑乘积 。 假设有
, 请完成如下证明 。
(1) 证明这种情况只在时才会出现 。
(2) 假设 , 考虑满足
的输入激活值的集合 。 请证明:满足上述条件的集合跨了一个不超过如下宽度的区间 。
(3) 证明以上表达式在
时取最大值(约为0.45) 。 所以 , 即使每个条件都满足 , 仍有
推荐阅读
- 奔驰E级|奔驰E级:开始清仓,为什么降到35万还有库存
- 烹饪|为什么大白菜上有“小黑点”?到底能不能吃?为了健康快告诉家人
- 笙笙千离|惠若琪李宇春同框颁奖,春春身高176还自卑,巨人身高收获幸福
- 资讯早知道|9年后再看《步步惊心》,发现若曦无论跟谁都不会幸福
- 弹钢琴|原创吉娜为1岁宠物兔庆生,郎朗弹钢琴助兴,幸福温馨像一家三口
- 人民日报|岳阳君山区:消费扶贫托起贫困户稳稳的幸福
- “全国人大 ”微信公众号|何健忠:以实施民法典提升人民美好生活的“幸福指数”
- 经济日报-中国经济网|【幸福花开新边疆】219国道旁的“脱贫事”
- 新华网|【幸福花开新边疆】奋发学技能 靠己奔小康
- 【渣男】乖乖女为什么会爱渣男,痛苦也不分手?
