简单观察|你中招了吗?,信用卡欠款918.75亿!多家银行发布最严风控( 三 )
通过图2-7所示发现 , 0:1=139974:10026 , 是存在严重的样本不平衡的 。 这是在金融风控中非常常见的 , 因为会存在严重违约的用户毕竟是少数 。 本案例采取SMOTE上采样的方法处理数据不平衡 。 通过python脚本进行编写 , 核心代码如图2-14所示 。 处理不平衡数据后通过聚合节点分析发现1类和0类数据达到平衡状态 , 如图2-15所示 。
在建立模型前 , 需要对连续变量离散化 , 特征离散化后 , 模型会更稳定 , 降低了模型过拟合的风险 。 连续变量是在任意两个值之间具有无限个值的数值变量 。 连续变量可以是数值变量 , 也可以是日期/时间变量 。 例如 , 零件的长度 , 或者收到付款的日期和时间 。 因此 , 我们自定义离散操作 , 如图2-16所示 。
相关性分析是用来反映变量之间的相关关系的密切程度 。 相关系数的取值一般介于-1和1之间 。 当相关系数为正的时候 , 意味着变量之间是正相关的;当相关系数为负的时候 , 意味着变量之间是负相关的 。 我们选择相关性节点探索各指标的相关性 , 如图2-18所示 。 因此我们相关性较强的特征 , 如图2-19所示 。
逻辑回归具有以下优势:
1、逻辑回归经过信贷历史的反复验证是有效的
2、模型比较稳定相对成熟
3、建模过程透明而不是黑箱
4、不太容易过拟合
通过逻辑回归模型训练后接入模型系数节点 , 输出的模型系数如图2-22所示 。
我们需要将逻辑回归转换为对应的分数 , (0-999分) 。
根据资料查得:Score=offset+factor*log(odds)
推荐阅读
- 武契奇|塞尔威亚总统武契奇:我在白宫捍卫了和中国的关系
- ipo观察|李书福的身价能赶超马克斯吗?,吉利汽车IPO后
- 女性健康|女生发际线后移怎么回事,多跟这6件事有关,有很多人都中招了
- 网红美食|网红甜点椰丝球自己动手做,简单零失败,甜丝丝的吃不胖
- 中国新闻网|服贸会观察:区块链为何能成全球贸易“助推器”?
- 【】服贸会观察:区块链为何能成全球贸易“助推器”?
- 央视网|新闻观察:北京自贸区呼之欲出 实施好营商环境改革4.0系列政策措施
- 川报观察|邻水这个贫困户把院子变成了花园 还从东北“摇”回一个媳妇儿
- 徐婷|4年前,徐婷在北京全身溃烂而亡,其实背后不只是患癌这么简单
- 澎湃新闻|全球城市观察︱搬回父母家,疫情期间“回巢”的美国年轻人
