人工智能弘犀CRO黄又钢:小微贷款风控模型中的算法探索|CCF-GAIR 2020( 三 )


它用哪些变量 , 在变量的层面上我们也进行比较 。 真正实际应用的是特征(变量) , 关键特征特别是关键维度覆盖性怎么样?传统模型覆盖了多少?10个维度还是20个维度?机器学习的维度到底是多少?都是我们需要考虑的 。
由于传统模型回归算法的局限性 , 它是线性(关系)的 , 维度一般在10~30个变量 。 而机器学习在准确性等方面比传统模型要好;
在变量层面 , 总体来说机器学习完全没有概念和业务场景的限制 , 可以按照数据结构往下走 , 使用的变量相对较多 。 比如XGboost有一两百个变量是常态 , 三五百个变量也是常态 。
我们比较两个模型时 , 在变量维度之间要做一个比较 。
一般来讲我们建回归模型 , 在处理变量时 , 我们做了数据本身的转换 , 可以在变量维度上做聚类分析 , 控制变量维度 。 假定回归有20个变量 , 回归模型一般就(代表)有20个维度 。
虽然机器学习的变量很多 , 但是我们至少可以判断维度上是不是有问题 。
而每个观测值的评分 , 也是需要具体比较的 。 如果评分一致 , 我可以确定这个企业的评分比较准确 。 但是 , 如果两个评分出现差异怎么办?如一家企业用传统模型测出720分 , 用机器学习测出来可能只有600分 。
(也即)回归模型说这个人风险低 , 机器学习说这个人风险高 , 那我们如何决策?这是我们后端策略上要解决的问题 。
综上所述 , 每一个评分的好坏 , 可以通过三个层面的比较:模型层面、变量层面、观测者层面 。
人工智能弘犀CRO黄又钢:小微贷款风控模型中的算法探索|CCF-GAIR 2020
本文插图
人群分类是建模中十分重要的环节 。 如图示 , 这里有多个子人群 。 如果我能把人群打开 , 按照其实际状态 , 分为红、绿、黄等图中标注的群体 , 在每一个人群上做独立的测试 , 可能会做出更好的预测 。
这是人群分类的基本点 。 任何人群可能会存在不同的子人群中 。 每个子人群可能会有其独立的特征和趋势 。 问题是我们能否找到这样的趋势和特征 。
而前提条件是我们能否把人群分开 , 每个人(建模师)的经验不同所以做到的程度不同 。
人工智能弘犀CRO黄又钢:小微贷款风控模型中的算法探索|CCF-GAIR 2020
本文插图
决策树算法和聚类算法是人群分类中常用的两个算法 。 决策树算法 , 是用树的方法把底下人群分为几个叶子 , 每个叶子为一个子人群 。
聚类算法 , 是以每个观测点(如企业)的相似性为基础 , 将相似的企业分为一类 。 “相似性”是由统计学上的距离来决定的 。 从机器学习角度分为有监督学习和无监督学习 。 有监督 , 指的是知道Y是什么 , 在有Y标签的前提下进行训练 。 无监督 , 指的是不知道Y , 只知道X变量 。 决策树算法是有监督算法的一种 , 而聚类算法是无监督算法的一种 。
这两种算法都非常有用 。
目前的算法变量越多 , 计算量越大 , 信息多了可以做更好的事情 , 信息多了可以分析各个层面 , 可能会有更好的结果 , 所以我们引入特征变量端 。
但是 , 在实际的统计分析上并非如此 , 信息多了可能会带来更多的噪音 , 当你无法区分噪音和有效数值时 , 你可能把噪音当做有用的 。
变量越多 , 算力肯定很沉重 , 如果我们涉及几千万人 , 算法用到几百棵树的时候 , 我们算力的时间不是按小时、分钟 , 可能是按天计算 。
特征少自然最好 , 我们能判断我们的特征是否是真的重要特征 。 我有5万个变量、1万个变量 , 过程中我选出20个变量 , 这20个变量是不是真正的主要变量?
在1000个、10000个变量里如何选择20个你认为关键的 , 这是我们算法上要解决的问题 。
人工智能弘犀CRO黄又钢:小微贷款风控模型中的算法探索|CCF-GAIR 2020


推荐阅读