混淆矩阵-不再那么令人混淆了( 二 )


准确度=(TP + TN)/总客户
在上述情况下 , 我们看到该模型在1000个客户的测试数据集上的准确性为70% 。
现在 , 我们了解到精度是仅应用于平衡数据集的指标 。为什么会这样? 让我们看一个例子来理解这一点 。

混淆矩阵-不再那么令人混淆了

文章插图
 
在此示例中 , 该模型是在不平衡数据集上训练的 , 甚至测试数据集也是不平衡的 。准确度指标的得分为72% , 这可能使我们觉得我们的模型在分类方面做得很好 。但是 , 仔细观察 , 此模型在预测否定类标签方面做得很糟糕 。它仅预测了100个阴性标记观察结果中的20个正确结果 。因此 , 如果数据集不平衡 , 则不应该使用"准确性"度量标准 。
这篇文章专注于完整地理解混乱矩阵 。
如果您想了解有关可用于评估分类模型的其他指标的更多信息 , 例如召回率 , 精度 , AUC-ROC等 , 则可以参考我下面有关该主题的详尽文章 。
分类ML模型的十大模型评估指标非常规地解释 , 这将作为评估分类机器学习模型的详尽清单 。请继续关注此空间 , 以获取有关数据科学 , 机器学习和统计的更多信息!
快乐学习:)
(本文翻译自Juhi Ramzai的文章《Confusion Matrix- Not so confusing anymore!》 , 参考:
https://towardsdatascience.com/confusion-matrix-not-so-confusing-anymore-3b7a934d623c)

【混淆矩阵-不再那么令人混淆了】


推荐阅读