读芯术非常规解释:分类ML模型的十大模型性能指标( 二 )


读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
图源:unsplash以上讨论的三个指标都是通用指标 , 与训练和测试数据的种类以及用于问题陈述的分类算法的种类无关 。我们现在将转而讨论非常适合特定数据类型的指标 。 下文将讨论准确度 , 这是最适合平衡数据集的指标 。 请参考下图:
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
如图所示 , 平衡数据集是一个训练数据由1/0 , 是/否 , 正/负平均分类的数据集 。 换句话说 , 如果两个类别标签的比率出现偏差 , 模型将偏向其中一个类别 。 假设我们有一个平衡数据集 , 由此来学习什么是准确度 。
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
准确度用于衡量结果与真实值的接近程度 。 它告诉我们分类模型能够多么准确地预测问题陈述中给出的类别标签 。假设分类模型正在尝试预测客户流失情况 。 在上图中 , 在总计700位实际流失的客户(TP + FN)中 , 该模型能够正确分类500位流失的客户(TP) 。 同样 , 在总计300个保留客户(FP + TN)中 , 该模型能够正确分类200个保留客户(TN) 。准确度=(TP + TN)/总客户人数 在上述情况下 , 该模型在1000个客户的测试数据集上的准确度为70% 。现在 , 我们了解到准确度是仅应用于平衡数据集的指标 。 为什么会这样呢?
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
此例中 , 该模型是在不平衡数据集上训练的 , 甚至测试数据集也是不平衡的 。 准确度指标为72% , 这可能会让我们觉得该模型在分类方面做得很好 。但仔细观察 , 此模型在预测负标签方面做得很糟糕 。 它仅正确预测了100个负样本中的20个 。 因此 , 如果数据集不平衡 , 则不应该使用“准确度”这一度量标准 。如果数据集不平衡 , 该使用什么指标呢?答案是召回率和精度 。 让我们详细了解这些指标 。5.召回率/灵敏度/真阳性率
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
召回率/灵敏度/ TPR(真阳性率)试图回答以下问题:即正确识别实际阳性的比例是多少?上图的召回率为78% 。 召回率通常用于真实检测极为重要的用例中 。 就比如问题陈述中的癌症预测 , 股票市场分类等要求假阴性被最小化的情况 , 这意味着召回率/灵敏度被最大化 。6.精度
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
精度试图回答以下问题:阳性结果的正确比例是多少?上图示例的精度为75% 。 精度通常用于要求没有大量误报的用例 。在垃圾邮件检测案例中 , 如上文所述 , 误报指不是垃圾邮件但被分类模型分类为垃圾邮件的观测结果 。 太多的误报可能会破坏开发垃圾邮件分类器的目的 。 在这种情况下 , 精度可方便地判断模型性能 。7.特异性
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
特异性(也称为真阴性率)可衡量正确识别出的实际阴性的比例 。基于用来理解精度的相同垃圾邮件检测分类器示例 。 特异性告诉我们模型能够准确分类多少个负样本 。 在此例中 , 特异性为33% , 这对于垃圾邮件检测模型不是一个很好的分数 , 因为这意味着大多数非垃圾邮件将错误地归类为垃圾邮件 。通过查看特异性指标 , 我们可以得出该模型需要改进的结论 。8.F1分数我们知道 , 在某些问题陈述中 , 较高的召回率优先于较高的精度 , 反之亦然 。 但在某些用例中 , 这一区别并不十分明晰 。 作为开发人员 , 我们希望对召回率和精度给予同样的关注 。这时可以使用另一个指标:F1得分 。 它同时取决于精度和召回率 。在二分类的统计分析中 , F1分数(也称为F分数或F量度)可用于衡量测试准确性 。 它同时考虑了精度p和测试的召回率r来计算分数:


推荐阅读