行业互联网数美科技联合创始人梁堃:构建全栈式智能风控体系( 二 )


行业互联网数美科技联合创始人梁堃:构建全栈式智能风控体系
本文插图
典型场景包括支付欺诈日益猖獗、黑产羊毛党疯狂套利和内容安全 , 我各举一个例子:
支付欺诈日益猖獗:随着交易线上化 , 我们每天的绝大多数交易都是通过在线支付 , 我们可以看到整个第三方在线支付交易的规模不停上涨 , 与此同时 , 整个欺诈交易量和导致的损失也在快速上涨 。
黑产羊毛党疯狂套利:我们在做营销活动的时候 , 核心只有两类——拉新和促活 。 拉新活动 , 你的底层逻辑是花钱买用户 , 专业的黑产就可以造一些虚假用户卖给你 , 在去年和前年 , 我们有很多客户都做这种营销活动 , 他会发现一件事 , 自己花了大部分营销费用 , 到最后用户留存率不高 。 有时候 , 他们觉得是不是营销活动或者目标人群不太对 。 但是你会发现 , 在参与这些营销活动人里面 , 50%甚至70%的人都是黑产的机器 , 它拿走这个套利之后再也不回来了 。 很多时候他们留存率还是不错的 , 只不过参与这个营销活动的真人占比是非常少的 。 促活或者留存活动 , 你的底层逻辑是花钱买活跃度 , 黑产就可以通过机器人的方法 , 通过各种各样假的资源造活跃卖给你 , 从而把你的营销费用套走 。
2017年中旬开始 , 我们已经看不到个人黑产形式 , 现在不同的APP都在用更加丰富的形式来运营用户 , 每个用户都可以发表评论、可以换自己的头像 , 有些信用卡的封面 , 客户都是可以自定义的 。 也会有直播或者是语音视频的形式来跟用户交流 , 内容生产形式越来越多 , 这些内容里面合规的问题就会成为一个非常麻烦的问题 。
我们今天面对黑产、面对欺诈 , 它们已经不是单兵作战 , 而是一个完整的黑色的产业链条 , 它们分工非常明确 , 每一块都是非常专业化的 。 我们曾经打击过一个黑产 , 他们一夜之间可以换一百多万个不同的IP , 遍及国内几十个大中小城市 。
行业互联网数美科技联合创始人梁堃:构建全栈式智能风控体系
本文插图
目前 , 传统的风控方案面临挑战包括这几个方面:防御能力的单薄:传统做这种风控常常依赖黑名单 , 依赖简单的人工规则 , 依赖一些单点防控 , 像SDK、验证卡等等;标准很难统一:每一个审核人员 , 或者审核内容是不是黑产 , 很难统一 。 时效性差:传统的统计学习、机器学习的算法 , 深度学习的算法 , 你会发现模型的训练至少要到T+1 , 而且更麻烦黑产样本总是少的 , 你的样本要积累足够多 , 才能完成这个训练 。 防御进化比较慢:缺乏策略迭代闭环和无自学习机制 。
2016年上半年 , 我们有一个季度都在跟黑产做激烈的对抗 , 逐渐发现你只用一个点跟黑产对抗是非常难的 , 首先你在一个点跟黑产对抗的时候 , 你设防的模型特征、策略 , 你的对手很清楚 , 这样你跟他PK就很难 。 其次你在一个点设防 , 很难达到对全局风险控制 , 一旦这个点被绕过 , 后面就是一马平川 , 你再没有什么去控制这个风险 。
而我们做风险控制 , 并不是为了找出每一个欺诈 , 我们第一个目标是在最恶劣情况下仍然对全局的风险有所控制 , 所以一个点的布控很难完成 , 所以我们提供全栈式的风控体系 , 主要包括以下部分:
布控体系:就是要在多个点做布控 , 在启动的时候看有没有问题 , 在注册、登录和业务行为的各个地方都看看有没有问题 。 每一个地方如果有一百个特征 , 这些特征组合起来 , 你会发现有多少个特征 。 当黑产再想要探测你的特征 , 需要的资源就是几亿、几十亿的资源 。
策略体系:其中 , 风险行为检测是基于软硬件特征、上网环境、设备指纹等100+原始数据维度、11亿+的设备样本库 , 采用聚类分析、GBM、设备相似性识别等技术构建风险设备识别模型 , 有效识别 虚拟机、多开、篡改设备 等高风险设备;风险内容检测是基于深度学习 , 理解语音、视觉、文本等形式的内容语义 , 同时识别三级、数百个不同的违规标签 。 欺诈团伙检测是基于设备、IP、WIFI等建立时域关联网络 , 利用社群发现、风险传播等无监督算法发现黑产团伙 , 识别潜在和新型欺诈威胁;画像体系 , 构建的风险画像体系 , 多个场景数据打通 , 多行业联防联控 , 共同高效对抗黑产 。


推荐阅读