读芯术非常规解释:分类ML模型的十大模型性能指标( 三 )


读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
在转而讨论最后两个指标之前 , 以下是维基百科提供的一个很好的摘要表 , 其中涵盖了本文迄今为止讨论的所有指标 。
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
到目前为止 , 我们已经讨论了用于预测类标签分类模型的模型性能指标 。 现在来研究基于概率的模型的指标吧 。曲线下面积(AUC) , 接收操作特性曲线(ROC) , 这是用于衡量模型性能的最重要指标之一 , 在数据科学领域非常流行 。
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
图源:unsplash例如 , 我们有一个分类模型 , 该模型给出的概率值介于0到1之间 , 以预测一个人肥胖的概率 。 接近0的概率值表示所考虑的人肥胖的概率非常低 , 而接近1的概率值表明该人肥胖的概率很高 。现在 , 默认情况下 , 如果我们考虑阈值为0.5 , 则所有概率≤0.5的人将被分类为“非肥胖” , 而概率> 0.5的人将被分类为“肥胖” 。 但是 , 我们可以更改此阈值 。 若将阈值设为0.3或0.9会怎样? 为了简化理解 , 我们抽取了10个人作为样本 。 要绘制ROC曲线 , 我们必须在x轴上绘制特异性(即假阳性率) , 在y轴上绘制灵敏度(即真阳性率) 。 ROC(接收操作特性)曲线告诉我们模型对两件事物的区分能力有多强 。 优质模型可以准确地区分两者 。 而不良模型将很难区分两者 。我们将看到4种不同的情况 , 它们对阈值的选择不同 。 我们还将为ROC曲线计算相应的x和y轴值 。
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
第一种情况:阈值=0.9
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
第二种情况:阈值=0.6
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
第三种情况:阈值=0.3
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
第四种情况:阈值=0 现在 , 我们有了4个数据点 , 据此可以绘制如下图所示的ROC曲线 。
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
因此 , 这就是通过为分类模型分配不同的阈值创建不同的数据点用以生成ROC曲线 , 并以此绘制ROC曲线的方法 。 ROC曲线下的面积称为AUC 。 AUC越大 , 模型越好 。 ROC曲线离中线越远 , 模型越好 。 由此 , ROC-AUC帮助我们判断分类模型的性能 , 并为我们提供从多种分类模型中选择一个模型的方法 。10. PR曲线如果数据大部分位于负标签上 , 那么ROC-AUC的结果将无法过多地代表现实 , 因为我们主要关注的是阳性率方法 , 即y轴上的真阳性率和x轴上的假阳性率 。 例如下图所示:本示例中 , 大多数数据都位于负标签下 , 而ROC-AUC不会捕获该信息 。 在这种情况下 , 我们转向PR曲线 , 它是精度-召回率曲线 。 在PR曲线中 , 我们将计算并在Y轴上绘制精度 , 在X轴上绘制召回率 , 以查看模型的效果 。以上就是分类机器学习模型的十大指标 , 你get了嘛?
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
【读芯术非常规解释:分类ML模型的十大模型性能指标】
读芯术非常规解释:分类ML模型的十大模型性能指标
本文插图
编译组:林柯秀、黄弈 相关链接: https://towardsdatascience.com/top-10-model-evaluation-metrics-for-classification-ml-models-a0a0f1d51b9推荐文章阅读


推荐阅读