中国统计网Python实战:信用评分模型开发「Part 1」( 三 )
针对我们将使用最优分段对于数据集中的RevolvingUtilizationOfUnsecuredLines、
age、DebtRatio和MonthlyIncome进行分类 。
RevolvingUtilizationOfUnsecuredLines分箱情况
本文插图
age分箱情况
DebtRatio分箱情况
MonthlyIncome分箱情况
针对不能最优分箱的变量 , 分箱如下:
2.WOE
WoE分析 ,是对指标分箱、计算各个档位的WoE值并观察WoE值随指标变化的趋势 。 其中WoE的数学定义是:
woe=ln(goodattribute/badattribute)
在进行分析时 , 我们需要对各指标从小到大排列 , 并计算出相应分档的WoE值 。
- 其中正向指标越大 , WoE值越小;反向指标越大 , WoE值越大 。
- 正向指标的WoE值负斜率越大 , 反响指标的正斜率越大 , 则说明指标区分能力好 。
- WoE值趋近于直线 , 则意味指标判断能力较弱 。
- 若正向指标和WoE正相关趋势、反向指标同WoE出现负相关趋势 , 则说明此指标不符合经济意义 , 则应当予以去除 。
接下来 , 我们会用经过清洗后的数据看一下变量间的相关性 。
注意:这里的相关性分析只是初步的检查 , 进一步检查模型的VI(证据权重)作为变量筛选的依据 。相关性图我们通过Python里面的seaborn包 , 调用heatmap绘图函数进行绘制 , 实现代码如下:
本文插图
数据集各变量的相关性
由上图可以看出 , 各变量之间的相关性是非常小的 。 NumberOfOpenCreditLinesAndLoans和NumberRealEstateLoansOrLines的相关性系数为0.43 。
接下来 , 我进一步计算每个变量的Infomation Value(IV) 。 IV指标是一般用来确定自变量的预测能力 。 其公式为:
- IV=sum((goodattribute-badattribute)*ln(goodattribute/badattribute))
- < 0.02: unpredictive
- 0.02 to 0.1: weak
- 0.1 to 0.3: medium
- 0.3 to 0.5: strong
- > 0.5: suspicious
输出图像:
本文插图
输出的各变量IV图
可以看出 , 以下几个变量:
- DebtRatio
- MonthlyIncome
- NumberOfOpenCreditLinesAndLoans
- NumberRealEstateLoansOrLines
- NumberOfDependents
推荐阅读
- 印度|中印边境一声巨响,印军试射导弹直指中国,解放军高原霸气亮剑
- 中国青年网|男子放手一搏再买6400元!结局令人震惊,买彩票输光15000元
- 中国网推荐|店家:她有脑子,1次刮痧5万!妈妈哭诉女儿理发店被骗十几万贷款
- 印度|印媒: 中国被我们冷落了!
- 窘境|窘境中求助惨遭拒绝!中国此次也选择置之不理,俄国:早该如此
- 人民日报海外版|人民日报海外版:中国经济复苏走在全球前列
- 中国新闻网|尼泊尔交通部部长感染新冠病毒 政府决定加紧增设高依赖病床
- 下个10年,Go能取代Python成为开发者的首选语言吗?
- 图表视界|印度GDP将反超日本!仅次于中国、美国?,柳叶刀最新预测!30年后
- 海峡军志号|否则以后卖给印度,继煤炭后棉花被禁?澳农业部要求中国“澄清”
