中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)( 四 )


检查逻辑回归模型中各个变量的系数 , 如果所有变量的系数均为正数 , 模型有效 。 假如有一些变量的系数出现了负数 , 说明有一些自变量的线性相关性较强 , 需要进一步进行变量筛选 。 通常的做法是:

  • 综合考虑变量的IV值和业务的建议 , 按照变量的优先级进行降序排列
  • 选择优先级最高的4-5个基本变量
  • 按优先级从高到低逐渐添加变量 , 当新添加的变量之后 , 出现系数为负的情况 , 舍弃该变量
  • 直到添加最后一个变量
Q9:为什么回归模型中各个变量的系数均为正数?
由以上分析我们知道对于分箱的WOE编码 , 分箱中坏客户占比越大 , WOE值越大;也就是说该分箱中客户为坏客户的概率就越大 , 对应的WOE值越大 , 即WOE与逻辑回归的预测结果 (坏客户的概率) 成正比 。
Q10:为什么说假如有一些变量的系数出现了负数 , 说明有一些自变量的线性相关性较强?
我们知道 , 正常情况下 , WOE编码后的变量系数一定为正值 。 由上面为什么进行线性相关性分析的问题可知 , 由于一些自变量线性相关 , 导致系数权重会有无数种取法 , 使得可以为正数 , 也可以为负数 。
(2)根据p-value进行筛选
p-value是假设检验的里面的概念 。 模型假设某自变量与因变量线性无关 , p-value可以理解为该假设成立的可能性 (便于理解 , 不太准确) 。 一般 , 当p-value大于阈值时 , 表示假设显著 , 即自变量与因变量线性无关;当p-value小于阈值时 , 表示假设不显著 , 即自变量与因变量线性相关 。 阈值又称为显著性水平 , 通常取0.05 。
因此当某个字段的 p-value 大于0.05时 , 应该删除此变量 。
Q11:先根据系数符号进行筛选 , 再进行p-value筛选?
变量的线性相关性会影响变量的预测效果 , 进而影响变量的p-value值 。 因此应该先根据系数符号进行筛选 , 再进行p-value筛选 。
7.模型评价
(1)混淆矩阵 , TPR (Recal) , FPR
TPR (或Recall) 为坏客户的查全率 , 表示被模型抓到的坏客户占总的坏客户的比例 , 表达式为:
FPR 为好客户误判率 , 表示好客户中倍模型误误判的比例 , 表达式为:
可以把TPR看做模型的收益 , FPR看做模型付出的代价 。 如果一个模型 TPR越大 , 表示模型能够抓到的坏客户比例越大 , 即收益越大;FPR越大 , 表示模型能够将好客户误抓的比例越大 , 即代价越大 。
(2)AUC
AUC 表示模型对任意坏客户的输出结果为大于模型对任意好客户的输出结果的概率 。 AUC的取值范围在0.5和1之间 , AUC 越大 , 表示模型预测性能越好 。
8.小结
最后我们再来回答最初的三个问题作为本文的小结:
(1)用户的属性有千千万万个维度 , 而评分卡模型所选用的字段在30个以下 , 那么怎样挑选这些字段呢?
  • 变量预测能力筛选
  • 变量相关性分析(包括两两相关性分析 , 多重共线性分析)
  • 根据p-value筛选
  • 根据变量的系数符号进行筛选
(2)评分法卡模型采用的是对每个字段的分段进行评分 , 那么怎样对评分卡进行分段呢?
——变量分箱
(3)怎样对字段的每个分段进行评分呢?这个评分是怎么来的?
  • WOE编码
  • 将预测概率值转化为评分
  • 利用变量相关性分析和变量的系数符号保证每个分箱评分的合理性
【中国统计网|如何用「逻辑回归」构建金融评分卡模型?(下)】
点击“在看” 让更多朋友看到好内容!


推荐阅读