中国统计网Python实战:信用评分模型开发「Part 2」
本文插图
6
模型分析
证据权重(Weight of Evidence,WOE)转换可以将Logistic回归模型转变为标准评分卡格式 。
引入WOE转换的目的并不是为了提高模型质量 , 只是一些变量不应该被纳入模型 , 这或者是因为它们不能增加模型值 , 或者是因为与其模型相关系数有关的误差较大 , 其实建立标准信用评分卡也可以不采用WOE转换 。
这种情况下 , Logistic回归模型需要处理更大数量的自变量 。 尽管这样会增加建模程序的复杂性 , 但最终得到的评分卡都是一样的 。
在建立模型之前 , 我们需要将筛选后的变量转换为WoE值 , 便于信用评分 。
1.WOE转换
我们已经能获取了每个变量的分箱数据和woe数据 , 只需要根据各变量数据进行替换 , 实现代码如下:
#替换成woe函数def replace_woe(series, cut, woe): list =I =0 while i<len(series): value=http://news.hoteastday.com/a/series[i] j=len(cut) -2 m=len(cut) -2 while j >=0: if value>=cut[j]: j = -1 else: j -=1 m -=1 list.append(woe[m]) i +=1 return list我们将每个变量都进行替换,并将其保存到WoeData.csv文件中:
# 替换成woedata['RevolvingUtilizationOfUnsecuredLines'] = Series(replace_woe(data, cutx1, woex1))data['age''age'], cutx2, woex2))data['NumberOfTime30-59DaysPastDueNotWorse'], cutx3, woex3))data['DebtRatio''DebtRatio'], cutx4, woex4))data['MonthlyIncome''MonthlyIncome'], cutx5, woex5))data['NumberOfOpenCreditLinesAndLoans'], cutx6, woex6))data['NumberOfTimes90DaysLate'], cutx7, woex7))data['NumberRealEstateLoansOrLines'], cutx8, woex8))data['NumberOfTime60-89DaysPastDueNotWorse'], cutx9, woex9))data['NumberOfDependents''NumberOfDependents'], cutx10, woex10))data.to_csv('WoeData.csv', index=False)2.Logisic模型建立
我们直接调用statsmodels包来实现逻辑回归:
导入数据data = http://news.hoteastday.com/a/pd.read_csv('WoeData.csv')#应变量Y=data['SeriousDlqin2yrs']#自变量 , 剔除对因变量影响不明显的变量X=data.drop(['SeriousDlqin2yrs','DebtRatio','MonthlyIncome','NumberOfOpenCreditLinesAndLoans','NumberRealEstateLoansOrLines','NumberOfDependents'],axis=1)X1=sm.add_constant(X)logit=sm.Logit(Y,X1)result=logit.fitprint(result.summary)输出结果:
本文插图
逻辑回归模型结果
逻辑回归各变量都已通过显著性检验 , 满足要求 。
3.模型检验
到这里 , 我们的建模部分基本结束了 。 我们需要验证一下模型的预测能力如何 。 我们使用在建模开始阶段预留的test数据进行检验 。 通过ROC曲线和AUC来评估模型的拟合能力 。
在Python中 , 可以利用sklearn.metrics , 它能方便比较两个分类器 , 自动计算ROC和AUC 。
实现代码:
#应变量Y_test =test['SeriousDlqin2yrs']#自变量 , 剔除对因变量影响不明显的变量 , 与模型变量对应X_test = test.drop(['SeriousDlqin2yrs','DebtRatio','MonthlyIncome','NumberOfOpenCreditLinesAndLoans','NumberRealEstateLoansOrLines','NumberOfDependents'], axis=1)X3 = sm.add_constant(X_test)resu = result.predict(X3)#进行预测fpr, tpr, threshold = roc_curve(Y_test, resu)rocauc = auc(fpr, tpr)#计算AUCplt.plot(fpr, tpr,'b', label='AUC = %0.2f' % rocauc)#生成ROC曲线plt.legend(loc='lower right')plt.plot([0, 1], [0, 1],'r--')plt.xlim([0, 1])plt.ylim([0, 1])plt.ylabel('真正率')plt.xlabel('假正率')plt.show
推荐阅读
- 印度|中印边境一声巨响,印军试射导弹直指中国,解放军高原霸气亮剑
- 中国青年网|男子放手一搏再买6400元!结局令人震惊,买彩票输光15000元
- 中国网推荐|店家:她有脑子,1次刮痧5万!妈妈哭诉女儿理发店被骗十几万贷款
- 印度|印媒: 中国被我们冷落了!
- 窘境|窘境中求助惨遭拒绝!中国此次也选择置之不理,俄国:早该如此
- 人民日报海外版|人民日报海外版:中国经济复苏走在全球前列
- 中国新闻网|尼泊尔交通部部长感染新冠病毒 政府决定加紧增设高依赖病床
- 下个10年,Go能取代Python成为开发者的首选语言吗?
- 图表视界|印度GDP将反超日本!仅次于中国、美国?,柳叶刀最新预测!30年后
- 海峡军志号|否则以后卖给印度,继煤炭后棉花被禁?澳农业部要求中国“澄清”
