人工智能神经网络中的基础概念有哪些？( 二 ) _人工智能

文章插图

反向传播
反向传播—前向传播之后我们得到一个输出值，即预测值。为了计算误差我们对比了带有真实输出值的预测值。我们使用一个损失函数（下文提及）计算误差值。接着我们计算每个误差值的导数和神经网络的每个权重。反向传播运用微分学中的链式法则，在其中我们首先计算最后一层中每个误差值的导数。我们调用这些导数、梯度，并使用这些梯度值计算倒数第二层的梯度，并重复这一过程直到获得梯度以及每个权重。接着我们从权重值中减去这一梯度值以降低误差。通过这种方式我们不断接近局部最小值（即最小损失）。

文章插图

学习率—训练神经网络的时候通常会使用梯度下降优化权重。在每一次迭代中使用反向传播计算损失函数对每一个权重的导数，并从当前权重减去导数和学习率的乘积。学习率决定了更新权重（参数）值的快慢。学习率应该尽可能高而不会花费太多时间达到收敛，也应该尽可能低从而能找到局部最优。

文章插图

精度和召回率
准确率—测量值对标准（或已知）值的接近程度。
精度—两个测量值之间的接近程度，表示测量的可重复性或可再现性。
召回率（敏感度）—全部相关实例中被恢复的相关实例的比率。

文章插图

Tp 指真正， Tn 指真负， Fp 指假正， Fn 指假负。
混淆矩阵—维基百科的解释是：
机器学习领域和统计分类问题中，混淆矩阵（也称为误差矩阵／error matrix）是一个算法性能的可视化表格，通常在监督学习中使用（无监督学习中混淆矩阵通常称为匹配矩阵，／matching matrix）。矩阵的每一行表示一个预测类，每一列表示一个真实类（或相反）。使用真实的名词使其易于解读，能简单地看出系统对两个类别的混淆程度（即将一个类别的物体标记为另一个）。

文章插图

混淆矩阵
收敛—随着迭代次数增加，输出越来越接近具体的值。
正则化—用于克服过拟合问题。正则化过程中通过添加一个 L1（LASSO）或 L2（Ridge）规范到权重向量 w（通过给定算法学习到的参数）上以「惩罚」损失项：
L（损失函数）+λN（w）—这里的λ是正则项， N（w）是 L1 或 L2 规范。
归一化—数据归一化是将一个或多个属性缩放至 0 到 1 的范围的过程。当不知道数据分布或分布不是高斯分布（钟形曲线）（）的时候，归一化是很有用的，可加速学习过程。
全连接层—一个层所有的节点的激活函数值作为下一层的每个节点的输入，若这对所有的层都成立，则称这些层为全连接层。

文章插图

全连接层
损失函数/代价函数—损失函数计算单个训练样本的误差，代价函数是整个训练集的损失函数的平均。
「mse」—平均方差
「binary_crossentropy」—二分类对数损失（logloss）
「categorical_crossentropy」—多分类对数损失（logloss）
模型优化器—优化器是一种搜索技术，用于更新模型的权重。
SGD—随机梯度下降，支持动量算法。
RMSprop—适应性学习率优化方法，由 Geoff Hinton 提出。
Adam—适应性矩估计（Adam）并同样使用了适应性学习率。
性能指标—用于测量神经网络性能的指标，例如，准确率、损失、验证准确率、验证损失、平均绝对误差、精度、召回率和 f1 分数等等。
批大小—一次前向/反向传播中适用的样本数，批大小越大，占用的内存量越大。
训练 epochs—模型在训练数据集上重复训练的总次数。
一个 epoch= 全部训练实例的一次前向和一次反向传播。