简单观察|你中招了吗？，信用卡欠款918.75亿！多家银行发布最严风控( 三 ) 下半年

通过行选择节点筛选出发现三个逾期指标出现的情况发生在相同的行，维度都是（225,11）。因此将其中一个异常指标过滤删除即可，如图2-13所示。
4、处理样本不平衡
通过图2-7所示发现， 0:1=139974:10026 ，是存在严重的样本不平衡的。这是在金融风控中非常常见的，因为会存在严重违约的用户毕竟是少数。本案例采取SMOTE上采样的方法处理数据不平衡。通过python脚本进行编写，核心代码如图2-14所示。处理不平衡数据后通过聚合节点分析发现1类和0类数据达到平衡状态，如图2-15所示。
5、数据离散化
在建立模型前，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量，也可以是日期/时间变量。例如，零件的长度，或者收到付款的日期和时间。因此，我们自定义离散操作，如图2-16所示。
整个的数据预处理流程如图2-17所示。
1.4特征选择1、相关性分析
相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候，意味着变量之间是正相关的；当相关系数为负的时候，意味着变量之间是负相关的。我们选择相关性节点探索各指标的相关性，如图2-18所示。因此我们相关性较强的特征，如图2-19所示。
1.5模型建立本案例采取逻辑回归模型，整体的流程图如图2-20所示。
逻辑回归具有以下优势：
1、逻辑回归经过信贷历史的反复验证是有效的
2、模型比较稳定相对成熟
3、建模过程透明而不是黑箱
4、不太容易过拟合
通常而言，评分卡模型一般采用roc或ks曲线来评价模型的好坏。本案例的评估结果如图2-21所示，发现该模型的auc取值为0.835 ， ks的最大取值为0.51 ，说明该模型的效果是不错的。
2.6计算评分1、模型系数
通过逻辑回归模型训练后接入模型系数节点，输出的模型系数如图2-22所示。
2、计算得分
我们需要将逻辑回归转换为对应的分数，（0-999分）。
根据资料查得：Score=offset+factor*log(odds)
最后输出各特征指标的得分，如图2-26所示，根据得分结果可查看分析出评分越高的客户违约风险就越大。为此可对相应的工作采取措施。

简单观察|你中招了吗？，信用卡欠款918.75亿！多家银行发布最严风控( 三 )

推荐阅读

幻化成蝶|数亿米粉始料未及！小米21日正式宣布，网友：再次良心了

红尘君style|科幻FPS大作《瓦解》Steam开放免费，新作《枪火重生》也迎来优惠

央视新闻客户端|巴黎一家运输公司3员工确诊新冠地铁暂不受影响

小型|古时小型犬有多小？有社会地位的人才能养？狮子狗是友好使节？

延时开关的原理及安装

红魔足球|曼联名宿：曼联和利物浦只差一个范迪克！或许还差一个渣叔！

出前一丁微波炉▲愚人节网友PS合集：魅族17系列如果长成这样子，你们会买吗？，原创

吉利汽车|北汽欲增持戴姆勒股份至9.9%，若成将是戴姆勒第一大股东

龟头炎高锰酸钾泡多久

為甚麼常常說別人「乖戾」的人，其語氣不多麼和善

最时尚：陶虹杨幂干练，但却都不如她好看！，女明星警服大比拼！杨蓉清纯

坐月子期间▲坐月子期间可以刷牙，而且是必须要刷牙

红旗|1.9秒破百！红旗超跑将注入法拉利“元素”

广州车展|新车云集第十八届广州车展将于11月20日举办

詹姆斯|那个撞断乔丹肋骨的恶汉，称赞詹姆斯就是历史最佳，你认同吗？

减少腹部脂肪很难吗？如何减腹部脂肪

寂寞伤感的个性签名寂寞个性签名！

「文玩与收藏」很多人试了都无法自拔！，据说小核桃做成手串可以使人上瘾

星川麻衣坊|可能存在猫腻，将秘密隐藏很好！巨蟹座天秤座魔羯座水瓶座，这些星座是地下恋情高手

家里摆放孔雀的禁忌