人工智能弘犀CRO黄又钢:小微贷款风控模型中的算法探索|CCF-GAIR 2020( 四 )
本文插图
人群分类实际操作的第一步 , 是构造分类 。
我们从模型数据中判断 , 最上面的分支我们不做任何人群分类 , 全体人群做回归模型 。 出来的20个变量、30个变量 , 我们暂时判定经过一个算法(如LR) , 这20个变量是主要的变量、主要的特征 。
我把这个主要特征应用到后面的人群分类 , 通过回归模型判断主要特征 。
在此之后做人群分类 , 不管任何时候 , 数据驱动一定是我们的方法之一 。
人的经验(业务经验)一定有意义 , 人(的经验)和数据驱动永远是相辅相成的 。 如果你只靠机器学习做所有决策 , 不能说绝对不对 , 但可能走到比较危险的地方 。
从算法层面 , 我用两类算法 , 监督和无监督 。
在特征变量上 , 我给出两个的维度(主要变量和全量变量) , 主要变量可以方便我们快速有效地分类 。 而全量变量可以全面考查各方面的信息 。
第二步是比较评估 , 我们用两个算法 , 决策树和
Cluster(聚类算法) , 及在特征变量上两个维度 , 那麽我们一起构成4个人群分类的方法 。 决策树用关键(主要)变量(ST2) , SK1用聚类算法用全量变量 。 说是4个方法 (4个圈) ,可是每个圈可以是非常复杂的东西 。
假定用决策树 , 如果特征有2000个变量 , 这个树可以长到几百个 , 非常容易 。
决策树要对着2000个变量找树 , 统计上可以做限制 。 每一层分多少?叶子最多是多少?分多少层?有2000个变量足够你找几百棵树 , 在几百棵树下 , 至少有几百个子集 。
你用聚类也可以做很多的聚类人群 。
在做了决策树等4个方法后 , 怎么知道哪个人群分类的方法就是好的呢?
我们最终谈的是预期模型和预测 。 在一个方法中可能出了200个子集 , 在另一个方法中出了40个子集 。 每一个子集要建模型 , 重新合起来 , 直到可以判断总人群到底是好还是不好 。
这四个方法 , 上面有一个LR模型 , 这是主模型 , 合到最后是5个模型 。 这5个模型之间的KS预测值谁好谁坏 , 可以判断最终的效果 。
不管分成多少个子集 , 我们最终要回归到总人群上比较 , 才能证明哪个方法好还是不好 。
如果一个决策树分为300个人群 , 那麽就会有300个模型 , 再加上总量的一个模型 , 就是301个模型 。 任何一个方法底层意味着几百个模型 。
人群分类的概念听起来非常简单 , 实际操作相当复杂 。 最终的结果有明确的评判好坏的标准 , 一是算法层面 , 二是参数层面 , 最终的效果必须汇总到整体后才可以评判 。
算法及应用的探索
前面谈到如何分类人群 , 最后我们讲一讲算法的探索 。
我回到中国学到一个词叫混搭 , 衣服、鞋子都可以混搭 , 我的女儿告诉我她左脚穿红袜子 , 右脚穿蓝袜子 , 这就是混搭 。
本文插图
混搭的概念在统计里早就应用到 。 比如两种算法相互匹配 , 两种算法相互兼容 , 两种算法相互嵌入 , 就可能做新的算法 。
如何做回归算法和集成随机决策树算法二者之间的交互?
我们可以先训练LR模型 , 然后分箱(分层) , 分箱后每个点之间一定有误差值 。 在误差值的基础上 , 哪个层面的误差值最大 , 就在哪个层面直接插入XGboost 。 用 XGboost在这一层上单独进行计算以减小预测误差 。 至于如何使用 , 是属于技术上的问题了 。
本文插图
算法探索与创新方面有两个思路 。
一是在单一算法层面 , 从数学角度和(或)计算机角度 , 产生新的突破 。
二是两种(或多种)算法的相互嵌入和混搭形成新的算法 。 比如XGboost的算法就是这样混搭出来的 。 从实际应用的层面 , “匹配”可能会更快地实现突破 ,即现成的算法匹配特定的人群和特定的特征 , 就可能产生非常成功的应用 , 比如CNN算法在图像识别上的应用效果就是一个事例 。
推荐阅读
- 央视新闻客户端|直通服贸会|服贸会上的“科技范儿”人工智能服务
- 【】服贸会上的“科技范儿”人工智能服务
- 直通服贸会|服贸会上的“科技范儿”人工智能服务
- 草莓味的棉花糖|陈根:当人工智能与猜拳狭路相逢,石头剪刀布还随机吗?
- |知名女星前男友被限制高消费
- 行业互联网|“朝阳20强”发布,以人工智能、大数据企业为主
- 孤惯|通用人工智能啥时候能实现?这是我的最新预测
- 爱集微|投向智能制造/人工智能等领域,欣旺达子公司参与设立产业基金
- 央视财经|技术创新赋予服务贸易新动能!百度首席技术官:人工智能是重要一环→
- 电子发烧友|人工智能将助力中国经济实现高质量发展
