简单观察|你中招了吗?,信用卡欠款918.75亿!多家银行发布最严风控( 二 )


为了统计所有数据中好坏客户的分布情况 , 选择聚合节点 , 选择分组计数 , 如图2-6 , 输出结果分布情况如图2-7所示 。 发现0类样本占有较大的比例 , 则需要考虑到样本不平衡问题 。
通过全表统计节点查看所有数据的分布情况 , 查看各指标的直方图、箱线图分布情况 , 如图2-8所示 。 发现“年龄”的最小值居然是0 , 但是根据我们的常识 , 小于18岁是不能在银行办理信用卡或是贷款业务的 。 以及看到三个逾期天数指标(逾期30-59天、逾期60-80天 , 逾期90天)是存在比较严重的离群值的 。
1.3数据预处理通过数据探索发现 , 月收入、家属数量这两个字段数据有部分空值、三个逾期天数指标存在异常值和部分数据可能有重复值 。 以及好坏客户的数据比例存在明显的不平衡现象 , 如果将这些数据直接进入模型 , 必然会对分析造成很大的影响 , 得到的结果的质量也必然是存在问题的 。 那么 , 在利用到数据之前就必须先进行数据预处理 , 把无价值的指标及数据去除 。
1、去重复值
通过去除重复值节点将重复行的数据进行给去除 , 结果去除后结果如图2-9所示 。
2、空值处理
由于“家属数量”缺失较少 , 可直接使用中位数进行填充 。 “月收入”这个特征对于征信来说非常重要的 , 本案例采用随机森林填补法来填充 , 即将缺失的特征值作为预测值 , 将未缺失的“月收入”数据作为训练样本的标签 。 流程图如图2-10所示 。
3、异常值处理
根据探索分析发现年龄的最小值为0 , 通常我们知道年龄小于18岁是不能办理银行信用卡或者贷款业务的 , 并且发现三个逾期天数指标(逾期30-59天、逾期60-80天 , 逾期90天)是存在比较严重的离群值的 。 通过行选择节点筛选出年龄<18的数据分析发现仅有年龄=0的这一条数据 , 如图2-11所示 。 因此需要将年龄为0的数据进行删除过滤 , 如图2-12所示 。


推荐阅读