人工智能神经网络中的基础概念有哪些?( 二 )


人工智能神经网络中的基础概念有哪些?

文章插图
 
反向传播
反向传播—前向传播之后我们得到一个输出值 , 即预测值 。为了计算误差我们对比了带有真实输出值的预测值 。我们使用一个损失函数(下文提及)计算误差值 。接着我们计算每个误差值的导数和神经网络的每个权重 。反向传播运用微分学中的链式法则 , 在其中我们首先计算最后一层中每个误差值的导数 。我们调用这些导数、梯度 , 并使用这些梯度值计算倒数第二层的梯度 , 并重复这一过程直到获得梯度以及每个权重 。接着我们从权重值中减去这一梯度值以降低误差 。通过这种方式我们不断接近局部最小值(即最小损失) 。
人工智能神经网络中的基础概念有哪些?

文章插图
 
学习率—训练神经网络的时候通常会使用梯度下降优化权重 。在每一次迭代中使用反向传播计算损失函数对每一个权重的导数 , 并从当前权重减去导数和学习率的乘积 。学习率决定了更新权重(参数)值的快慢 。学习率应该尽可能高而不会花费太多时间达到收敛 , 也应该尽可能低从而能找到局部最优 。
人工智能神经网络中的基础概念有哪些?

文章插图
 
精度和召回率
准确率—测量值对标准(或已知)值的接近程度 。
精度—两个测量值之间的接近程度 , 表示测量的可重复性或可再现性 。
召回率(敏感度)—全部相关实例中被恢复的相关实例的比率 。
人工智能神经网络中的基础概念有哪些?

文章插图
 
Tp 指真正 , Tn 指真负 , Fp 指假正 , Fn 指假负 。
混淆矩阵—维基百科的解释是:
机器学习领域和统计分类问题中 , 混淆矩阵(也称为误差矩阵/error matrix)是一个算法性能的可视化表格 , 通常在监督学习中使用(无监督学习中混淆矩阵通常称为匹配矩阵 , /matching matrix) 。矩阵的每一行表示一个预测类 , 每一列表示一个真实类(或相反) 。使用真实的名词使其易于解读 , 能简单地看出系统对两个类别的混淆程度(即将一个类别的物体标记为另一个) 。
人工智能神经网络中的基础概念有哪些?

文章插图
 
混淆矩阵
收敛—随着迭代次数增加 , 输出越来越接近具体的值 。
正则化—用于克服过拟合问题 。正则化过程中通过添加一个 L1(LASSO)或 L2(Ridge)规范到权重向量 w(通过给定算法学习到的参数)上以「惩罚」损失项:
L(损失函数)+λN(w)—这里的λ是正则项 , N(w)是 L1 或 L2 规范 。
归一化—数据归一化是将一个或多个属性缩放至 0 到 1 的范围的过程 。当不知道数据分布或分布不是高斯分布(钟形曲线)()的时候 , 归一化是很有用的 , 可加速学习过程 。
全连接层—一个层所有的节点的激活函数值作为下一层的每个节点的输入 , 若这对所有的层都成立 , 则称这些层为全连接层 。
人工智能神经网络中的基础概念有哪些?

文章插图
 
全连接层
损失函数/代价函数—损失函数计算单个训练样本的误差 , 代价函数是整个训练集的损失函数的平均 。
「mse」—平均方差
「binary_crossentropy」—二分类对数损失(logloss)
「categorical_crossentropy」—多分类对数损失(logloss)
模型优化器—优化器是一种搜索技术 , 用于更新模型的权重 。
SGD—随机梯度下降 , 支持动量算法 。
RMSprop—适应性学习率优化方法 , 由 Geoff Hinton 提出 。
Adam—适应性矩估计(Adam)并同样使用了适应性学习率 。
性能指标—用于测量神经网络性能的指标 , 例如 , 准确率、损失、验证准确率、验证损失、平均绝对误差、精度、召回率和 f1 分数等等 。
批大小—一次前向/反向传播中适用的样本数 , 批大小越大 , 占用的内存量越大 。
训练 epochs—模型在训练数据集上重复训练的总次数 。
一个 epoch= 全部训练实例的一次前向和一次反向传播 。


推荐阅读