追着幸福跑|为什么深度神经网络这么难训练?| 赠书( 五 )


当然 , 实际情况并非如此 。 想想随机初始化神经网络中的权重和偏置 。 对于任意任务 , 单单使用随机初始化的值难以获得良好结果 。 具体而言 , 考虑MNIST问题中神经网络第1层的权重 , 随机初始化意味着第1层丢失了输入图像的几乎所有信息 。 即使后面的层能得到充分的训练 , 这些层也会因为没有充足的信息而难以识别输入图像 。 因此 , 第1层不进行学习是行不通的 。 如果继续训练深度神经网络 , 就需要弄清楚如何解决梯度消失问题 。
追着幸福跑|为什么深度神经网络这么难训练?| 赠书梯度消失的原因
为了弄清楚梯度消失问题出现的原因 , 看一个极简单的深度神经网络:每层都只有单一神经元 。 图5-9展示了有3个隐藏层的神经网络 。
追着幸福跑|为什么深度神经网络这么难训练?| 赠书
追着幸福跑|为什么深度神经网络这么难训练?| 赠书
追着幸福跑|为什么深度神经网络这么难训练?| 赠书表达式结构如下:每个神经元都有
追着幸福跑|为什么深度神经网络这么难训练?| 赠书项 , 每个权重都有
追着幸福跑|为什么深度神经网络这么难训练?| 赠书项 , 此外还有一个
追着幸福跑|为什么深度神经网络这么难训练?| 赠书项 , 它表示最终的代价函数 。 注意 , 这里将表达式中的每一项置于对应的位置 , 所以神经网络本身就是对表达式的解读 。
你可以不深究这个表达式 , 直接跳到下文讨论为何出现梯度消失的内容 。 这样做不会影响理解 , 因为实际上该表达式只是反向传播的特例 。 不过 , 对于该表达式为何正确 , 了解一下也很有趣(可能还会给你有益的启示) 。
假设对偏置
追着幸福跑|为什么深度神经网络这么难训练?| 赠书做了微调
追着幸福跑|为什么深度神经网络这么难训练?| 赠书 , 这会导致神经网络中其余元素发生一系列变化 。 首先会使得第1个隐藏神经元输出产生
追着幸福跑|为什么深度神经网络这么难训练?| 赠书的变化 , 进而导致第2个隐藏神经元的带权输入产生
追着幸福跑|为什么深度神经网络这么难训练?| 赠书的变化 , 第2个隐藏神经元输出随之产生
追着幸福跑|为什么深度神经网络这么难训练?| 赠书的变化 , 以此类推 , 最终输出的代价会产生
追着幸福跑|为什么深度神经网络这么难训练?| 赠书的变化 。 这里有:


推荐阅读