追着幸福跑|为什么深度神经网络这么难训练?| 赠书( 八 )


一个小的输入激活值区间 , 以此避免梯度消失问题 。
恒等神经元:考虑一个只有单一输入的神经元
追着幸福跑|为什么深度神经网络这么难训练?| 赠书, 对应的权重为
追着幸福跑|为什么深度神经网络这么难训练?| 赠书, 偏置为
追着幸福跑|为什么深度神经网络这么难训练?| 赠书, 输出上的权重为
追着幸福跑|为什么深度神经网络这么难训练?| 赠书。 请证明:通过合理选择权重和偏置 , 可以确保
追着幸福跑|为什么深度神经网络这么难训练?| 赠书, 其中
追着幸福跑|为什么深度神经网络这么难训练?| 赠书
这样的神经元可用作恒等神经元 , 即输出和输入相同(按权重因子成比例缩放) 。提示:可以重写
追着幸福跑|为什么深度神经网络这么难训练?| 赠书, 假设很小 , 以及对
追着幸福跑|为什么深度神经网络这么难训练?| 赠书使用泰勒级数展开 。
追着幸福跑|为什么深度神经网络这么难训练?| 赠书复杂神经网络中的梯度不稳定
前面研究了简单的神经网络 , 其中每个隐藏层只包含一个神经元 。 那么 , 每个隐藏层包含很多神经元的深度神经网络又如何呢?图5-13展示了一个复杂的深度神经网络 。
追着幸福跑|为什么深度神经网络这么难训练?| 赠书实际上 , 在这样的神经网络中 , 同样的情况也会发生 。 在介绍反向传播时 , 本书提到了在一个共L层的神经网络中 , 第l层的梯度是:
追着幸福跑|为什么深度神经网络这么难训练?| 赠书其中
追着幸福跑|为什么深度神经网络这么难训练?| 赠书是一个对角矩阵 , 它的每个元素是第l层的带权输入
追着幸福跑|为什么深度神经网络这么难训练?| 赠书
追着幸福跑|为什么深度神经网络这么难训练?| 赠书是不同层的权重矩阵 ,
追着幸福跑|为什么深度神经网络这么难训练?| 赠书是每个输出激活值的偏导数向量 。
相比单一神经元的情况 , 这是更复杂的表达式 , 但仔细看的话 , 会发现本质上形式还是很相似的 , 主要区别是包含了更多形如


推荐阅读