追着幸福跑|为什么深度神经网络这么难训练?| 赠书( 五 )
当然 , 实际情况并非如此 。 想想随机初始化神经网络中的权重和偏置 。 对于任意任务 , 单单使用随机初始化的值难以获得良好结果 。 具体而言 , 考虑MNIST问题中神经网络第1层的权重 , 随机初始化意味着第1层丢失了输入图像的几乎所有信息 。 即使后面的层能得到充分的训练 , 这些层也会因为没有充足的信息而难以识别输入图像 。 因此 , 第1层不进行学习是行不通的 。 如果继续训练深度神经网络 , 就需要弄清楚如何解决梯度消失问题 。
梯度消失的原因
为了弄清楚梯度消失问题出现的原因 , 看一个极简单的深度神经网络:每层都只有单一神经元 。 图5-9展示了有3个隐藏层的神经网络 。
表达式结构如下:每个神经元都有
项 , 每个权重都有
项 , 此外还有一个
项 , 它表示最终的代价函数 。 注意 , 这里将表达式中的每一项置于对应的位置 , 所以神经网络本身就是对表达式的解读 。
你可以不深究这个表达式 , 直接跳到下文讨论为何出现梯度消失的内容 。 这样做不会影响理解 , 因为实际上该表达式只是反向传播的特例 。 不过 , 对于该表达式为何正确 , 了解一下也很有趣(可能还会给你有益的启示) 。
假设对偏置做了微调
, 这会导致神经网络中其余元素发生一系列变化 。 首先会使得第1个隐藏神经元输出产生
的变化 , 进而导致第2个隐藏神经元的带权输入产生
的变化 , 第2个隐藏神经元输出随之产生
的变化 , 以此类推 , 最终输出的代价会产生
的变化 。 这里有:
推荐阅读
- 奔驰E级|奔驰E级:开始清仓,为什么降到35万还有库存
- 烹饪|为什么大白菜上有“小黑点”?到底能不能吃?为了健康快告诉家人
- 笙笙千离|惠若琪李宇春同框颁奖,春春身高176还自卑,巨人身高收获幸福
- 资讯早知道|9年后再看《步步惊心》,发现若曦无论跟谁都不会幸福
- 弹钢琴|原创吉娜为1岁宠物兔庆生,郎朗弹钢琴助兴,幸福温馨像一家三口
- 人民日报|岳阳君山区:消费扶贫托起贫困户稳稳的幸福
- “全国人大 ”微信公众号|何健忠:以实施民法典提升人民美好生活的“幸福指数”
- 经济日报-中国经济网|【幸福花开新边疆】219国道旁的“脱贫事”
- 新华网|【幸福花开新边疆】奋发学技能 靠己奔小康
- 【渣男】乖乖女为什么会爱渣男,痛苦也不分手?
