什么是神经网络( 二 )


学习率:太低会导致收敛缓慢或陷入局部最小值的风险 。太高将导致优化的分散 。
梯度剪切:用于在反向传播中剪切参数梯度的最大值或最大值范数 。
批量归一化:对每一层的输入进行归一化,解决内部协变量移位问题 。
随机梯度下降(SGD):SGD使用动量、自适应学习率、Nesterov更新 。
正规化:构建可扩展模型至关重要,因为它会增加模型复杂性或极端参数值的代价 。同时,它显著地减小了模型的方差,并没有显著加偏差 。
Dropout:一种不同的技术,可以调节网络以防止过度拟合 。在训练期间,通过以一定概率p(超参数)维持神经元活动而达到的损失 。否则,它被设置为零 。总之,网络必须在每个训练批次中使用单独的参数子集,这减少了特定参数的变化并且变得优于其他设置 。
5.全程跟踪通过更好地跟踪您的工作,您可以轻松查看和重现以前的实验,以减少重复工作 。
但是,手动记录信息可能是很困难的,需要进行多次实验,而像comet.ml这样的工具可以帮助自动跟踪数据集、代码更改、实验历史和生产模型,包括关于模型的关键知识,例如超参数:模型性能指标和环境细节 。

什么是神经网络

文章插图
 
神经网络容易受到数据、参数甚至包的微小变化的影响,这会导致性能下降 。工作跟踪是归一化环境和建模工作流程的第一步 。

【什么是神经网络】


推荐阅读