追着幸福跑|为什么深度神经网络这么难训练？| 赠书( 二 ) 导读：本文内容节选自《深入浅出神经网

这样的神经网络可以使用中间层构建出多层抽象，正如在布尔电路中所做的那样。如果进行视觉模式识别，那么第1层的神经元可能学会识别边；第2层的神经元可以在此基础上学会识别更加复杂的形状，例如三角形或矩形；第3层将能够识别更加复杂的形状，以此类推。有了这些多层抽象，深度神经网络似乎可以学习解决复杂的模式识别问题。正如电路示例所体现的那样，理论研究表明深度神经网络本质上比浅层神经网络更强大。
【追着幸福跑|为什么深度神经网络这么难训练？| 赠书】如何训练深度神经网络呢？本章尝试使用我们熟悉的学习算法——基于反向传播的随机梯度下降，来训练深度神经网络。但是，这会产生问题，因为我们的深度神经网络并不比浅层神经网络的性能强多少。
这似乎与前面的讨论相悖，就此退缩吗？当然不，下面深入探究使得深度神经网络训练困难的原因。仔细研究便会发现，在深度神经网络中，不同层的学习速度差异很大。后面的层正常学习时，前面的层常常会在训练中停滞不前，基本上学不到什么。这种停滞并不是因为运气不佳，而是有着更根本的原因，并且这些原因和基于梯度的学习技术相关。
随着更加深入地理解这个问题，也会发现相反的情形：前面的层可能学习得很好，但是后面的层停滞不前。实际上，我们发现在深度神经网络中使用基于梯度下降的学习算法本身存在不稳定性。这种不稳定性使得前面或后面的层的学习过程阻滞。
这的确是个坏消息，但真正理解了这些难点后，就能掌握高效训练深度神经网络的关键所在。而且这些发现也是第6章的预备知识，届时会介绍如何使用深度学习解决图像识别问题。
梯度消失问题
在训练深度神经网络时，究竟哪里出了问题？
为了回答这个问题，首先回顾一下使用单一隐藏层的神经网络示例。这里仍以MNIST数字分类问题作为研究和试验的对象。
你也可以使用自己的计算机训练神经网络。如果想同步跟随这些步骤，需要用到NumPy ，可以使用如下命令复制所有代码：
git clone
如果你不使用Git ，可以直接在随书下载的压缩包里找到数据和代码。
进入src子目录，在Python shell中加载MNIST数据：
>>> import mnist_loader
>>> training_data, validation_data, test_data = http://kandian.youth.cn/
... mnist_loader.load_data_wrapper
初始化神经网络：
>>> import network2
>>> net = network2.Network([784, 30, 10])
该神经网络有784个输入神经元，对应输入图片的28×28 = 784个像素点。我们设置隐藏神经元为30个，输出神经元为10个，对应10个MNIST数字（0～9）。
训练30轮，小批量样本大小为10 ，学习率
，正则化参数
。训练时也会在validation_data上监控分类准确率：
>>> net.SGD(training_data, 30, 10, 0.1, lmbda=5.0,
... evaluation_data=http://kandian.youth.cn/index/validation_data, monitor_evaluation_accuracy=True)

追着幸福跑|为什么深度神经网络这么难训练？| 赠书( 二 )

推荐阅读

伊然美|娱乐圈姓胡的男星，原创

梦见朋友来家里吃饭自己没吃女人梦见朋友来家里吃饭

中年|碧蓝航线SSR科研三期柴郡养成攻略用最好的装备武装顶级猫女仆

水浒传108将哪个好汉水分最大，绰号唬人却武功差

应不应该让父母利用资源在家乡找一个好工作

美军舰▲美军舰突然现身黄海，紧贴京唐港演习区域，距南通仅100海里

小学数学统计图有哪些统计图有哪些

爱否科技|Mate 40 信息汇总：首发 5nm 麒麟芯片，配备潜望式长焦，华为

SaraSAra蕾蕾酱|| 女明星的夏季穿搭，凉爽又时髦，明星穿搭红榜

山楂泡水饮用能帮助减肥吗,喝哪种花草茶保养水润肌肤3山楂

[电池]最伤手机的充电方式，严重影响电池寿命，你中招了吗？

最不爱说“普通话”的四大城市，买菜都说方言

「新华网」一名白衣天使的“逆行”冲锋——记泰康同济医院感染十三科医生石蕊

女人怎样才能过得好

自动离职和辞职的区别在哪

如果暑期全国实行昼伏夜出，有哪些利弊

三易生活■中端5G新机荣耀30S发布，售价从2399元起跳

GeekPwn2019上演实力攻防战京东展示安全硬核实力

组合衣柜尺寸介绍组合衣柜安装策略

长期戴眼镜为何眼神会显得呆滞