学习率:太低会导致收敛缓慢或陷入局部最小值的风险 。太高将导致优化的分散 。
梯度剪切:用于在反向传播中剪切参数梯度的最大值或最大值范数 。
批量归一化:对每一层的输入进行归一化,解决内部协变量移位问题 。
随机梯度下降(SGD):SGD使用动量、自适应学习率、Nesterov更新 。
正规化:构建可扩展模型至关重要,因为它会增加模型复杂性或极端参数值的代价 。同时,它显著地减小了模型的方差,并没有显著加偏差 。
Dropout:一种不同的技术,可以调节网络以防止过度拟合 。在训练期间,通过以一定概率p(超参数)维持神经元活动而达到的损失 。否则,它被设置为零 。总之,网络必须在每个训练批次中使用单独的参数子集,这减少了特定参数的变化并且变得优于其他设置 。
5.全程跟踪通过更好地跟踪您的工作,您可以轻松查看和重现以前的实验,以减少重复工作 。
但是,手动记录信息可能是很困难的,需要进行多次实验,而像comet.ml这样的工具可以帮助自动跟踪数据集、代码更改、实验历史和生产模型,包括关于模型的关键知识,例如超参数:模型性能指标和环境细节 。

文章插图
神经网络容易受到数据、参数甚至包的微小变化的影响,这会导致性能下降 。工作跟踪是归一化环境和建模工作流程的第一步 。
【什么是神经网络】
推荐阅读
- 周公解梦梦见棺材有什么寓意 做梦梦见棺材
- 判断当前的浏览器是pc还是移动设备,对应跳转方法
- 互联网营销是什么?互联网营销怎么做?零基础学习互联网营销技巧
- 苹果越狱对手机有什么坏处 苹果越狱有什么坏处吗
- JSON 是什么?它能带来什么?
- JS基础入门:严格模式
- 六类网线最远传输距离是多远?
- 什么是端口映射
- 超5类线水晶头与6类线水晶头有什么不同?
- JS基础入门:事件捕获与事件冒泡
