利用历史数据做商业预测的全过程( 三 )
本文插图
导入后 , 点击界面右上方的“Scoring”
本文插图
按钮进行预测 , 完成即可得下面的界面 , 最左侧的一列就是预测结果 , 在本例中百分数表示客户违约的概率 , 概率越大的客户违约的风险越高 。 我们可以按超过预测的违约概率超过某个阈值就认为高风险客户(具体用什么阈值 , 要根据业务经验来定 , 缺乏经验时也可以先简单粗暴地用 50% 来算) 。
本文插图
这个结果还可以导出成 csv , xls 等多种格式的结果文件 。
到这一步 , 我们的预测就完成了 , 整个过程可以说是非常简单 。
4. 模型表现
前面说了 , 预测不可能 100% 准确 , 但总得有个准确度吧 , 我们怎么知道呢?
在第 2 步模型建好以后 , 点击“Model Performance”按钮
本文插图
, 可以看到关于这个模型的一些信息 , 称为模型表现 , 如下图 。
本文插图
我们通常看这个叫 AUC 的指标 , 取值范围为(0.5-1) , 原则上越大越好 , 表示这个模型越准确 。 比如这个模型的 AUC 是 0.89 , 算是不错的模型 , 用这个模型去做预测的可信度是很好的 。 不过 , 这个 0.89 并不是指准确度是 89%(具体的预测准确度和前面说的那个阈值有关 , 在确定阈值之前是没法算出来的) , AUC 的具体含义比较复杂 , 感兴趣的同学可以去参考数据挖掘的书籍( 这有一个浅显易懂的免费电子书http://www.raqsoft.com/html/course-data-mining.html ) 。
如果 AUC 很高 , 接近于 1 , 是不是说明这个模型特别好?也不一定 , 这可能会发生所谓的“过拟合”现象 。 这时 , 虽然 AUC 指标非常好 , 但真正拿来预测时可能准确率反而会非常差 。 至于为什么发生过滤以及如何识别和避免它 , 也可以参考上述的书籍 。
总结:
【利用历史数据做商业预测的全过程】最后我们再来总结下使用历史数据做商业预测的流程:
- 将历史数据和待预测的数据都整理成宽表 , 历史数据中必须要有目标变量 , 待预测数据则没有 。
- 将历史数据导入 YModel , 建立模型 , 生成.pcf 后缀的模型文件
- 打开 pcf 模型文件 , 导入待预测数据 , 完成预测 , 生成结果 , 然后就可以根据预测出来的结果(比如违约概率)去决定商业行动了 。
推荐阅读
- 租车|男子利用漏洞偷开租赁汽车 还拉客赚钱!结果栽了
- 丰田|丰田“震怒”!最新研究:氢燃料电池有三大弊端、无商业化机会
- 杀毒软件|杀软诺顿360被批:未经同意就利用用户电脑挖矿
- 淘宝|阿里明确中国数字商业板块组织架构:全面聚焦客户体验
- 胎儿|华大基因CEO:利用受精卵基因编辑 可实现胎儿天下无残
- 苹果|苹果又爆漏洞:可利用HomeKit让iPhone瘫痪
- 发电站|盖茨、谷歌参与投资 美国CFS公司开建核聚变电站:2025年商业发电
- 商标|上海万翠堂撤回全部青花椒诉讼 董事长致歉:绝非想利用商标赚钱
- 腾讯|利用AI+大数据!钟南山团队联合腾讯发布最新疫情研究成果
- 王力宏|王力宏遭多家品牌解约 主理品牌被多平台火速下架:与前妻已无商业关联
