简单观察|你中招了吗?,信用卡欠款918.75亿!多家银行发布最严风控( 三 )


通过行选择节点筛选出发现三个逾期指标出现的情况发生在相同的行 , 维度都是(225,11) 。 因此将其中一个异常指标过滤删除即可 , 如图2-13所示 。
4、处理样本不平衡
通过图2-7所示发现 , 0:1=139974:10026 , 是存在严重的样本不平衡的 。 这是在金融风控中非常常见的 , 因为会存在严重违约的用户毕竟是少数 。 本案例采取SMOTE上采样的方法处理数据不平衡 。 通过python脚本进行编写 , 核心代码如图2-14所示 。 处理不平衡数据后通过聚合节点分析发现1类和0类数据达到平衡状态 , 如图2-15所示 。
5、数据离散化
在建立模型前 , 需要对连续变量离散化 , 特征离散化后 , 模型会更稳定 , 降低了模型过拟合的风险 。 连续变量是在任意两个值之间具有无限个值的数值变量 。 连续变量可以是数值变量 , 也可以是日期/时间变量 。 例如 , 零件的长度 , 或者收到付款的日期和时间 。 因此 , 我们自定义离散操作 , 如图2-16所示 。
整个的数据预处理流程如图2-17所示 。
1.4特征选择1、相关性分析
相关性分析是用来反映变量之间的相关关系的密切程度 。 相关系数的取值一般介于-1和1之间 。 当相关系数为正的时候 , 意味着变量之间是正相关的;当相关系数为负的时候 , 意味着变量之间是负相关的 。 我们选择相关性节点探索各指标的相关性 , 如图2-18所示 。 因此我们相关性较强的特征 , 如图2-19所示 。
1.5模型建立本案例采取逻辑回归模型 , 整体的流程图如图2-20所示 。
逻辑回归具有以下优势:
1、逻辑回归经过信贷历史的反复验证是有效的
2、模型比较稳定相对成熟
3、建模过程透明而不是黑箱
4、不太容易过拟合
通常而言 , 评分卡模型一般采用roc或ks曲线来评价模型的好坏 。 本案例的评估结果如图2-21所示 , 发现该模型的auc取值为0.835 , ks的最大取值为0.51 , 说明该模型的效果是不错的 。
2.6计算评分1、模型系数
通过逻辑回归模型训练后接入模型系数节点 , 输出的模型系数如图2-22所示 。
2、计算得分
我们需要将逻辑回归转换为对应的分数 , (0-999分) 。
根据资料查得:Score=offset+factor*log(odds)
最后输出各特征指标的得分 , 如图2-26所示 , 根据得分结果可查看分析出评分越高的客户违约风险就越大 。 为此可对相应的工作采取措施 。


推荐阅读