文本理解算法在抖音风控上的应用( 二 )


技术方案模型架构:多 channel 输入对同音、形近变体更加鲁棒

文本理解算法在抖音风控上的应用

文章插图
 
训练方法:样本增广 + 一致性训练
文本理解算法在抖音风控上的应用

文章插图
 
样本降噪:解决数据中的错误标签
文本理解算法在抖音风控上的应用

文章插图
 
自动迭代
  • 主动学习提高审出
  • 监控看板保证质量

文本理解算法在抖音风控上的应用

文章插图
 
风险信息提取黑产作弊文本经常会包含一些关键信息,作弊手法会变但关键信息不易变(或者变化成本较高),如果能够正确识别出文本中的关键信息,就能有效提升防御体系鲁棒性 。目前已有建设 3 种风险信息提取能力:风险联系方式、风险变体、风险文本片段 。其他场景下,比如电商业务中风险地址提取,也能够参考构建类似能力 。
风险联系方式抖音是流量聚集地,黑产为了谋利往往会将流量引到端外,进而实施违法行为,因此识别黑产留下的联系方式是一项重要能力 。
能力全景图从使用阶段划分,包含 判别->提取->风险分->风险标签 。
  1. 判别(有没有联系方式):包含高准、高召两部分模型集,根据使用场景、治理阶段不同选取相应模型集 。
  2. 提取(联系方式在哪):支持将提取出的变体联系方式归一化,并且有例行挖掘任务,不断补充新型变体数字字母 。
  3. 风险分(有没有风险):基于联系方式风险特征,训练得到风险分模型 。
  4. 风险标签(风险是啥):也区分高准和高召 。高准通过人工标注,高召通过用户-联系方式二部图标签扩散方式得到 。

文本理解算法在抖音风控上的应用

文章插图
 
风险变体黑产为了对抗文本识别能力,会对文本关键部分变体 。由于大部分文本模型不会经常更新,导致模型效果会随着时间逐渐衰减 。为了解决这个问题,将文本变体能力与下游文本能力解耦开,当变体识别能力提升时,所有下游任务均可受益 。
PS:如果黑产文本变体太快,会不会跟不上,这样能力建设有啥意义?
前期的简单变体,我们的能力都会覆盖,越到后期,黑产创造新变体的成本会越高,更考验的是能力是否在不断迭代更新 。
技术方案变体挖掘->变体判别->变体映射表流程可自动化运行,不断挖掘得到新变体 。
文本理解算法在抖音风控上的应用

文章插图
 
风险文本片段黑产除了对关键信息变体,还会对非关键文本做话术变换 。黑产为了表达意图,关键信息不会很发散,来来回回可能就那几个关键词,但是会变换话术以此对抗识别模型,我们只需要从黑产发的大量文本中,找出表达意图的关键信息,即可提升系统对话术变换的鲁棒性 。
文本理解算法在抖音风控上的应用

文章插图
 
技术方案整体技术方案总结来说就两步:
  1. 获取文本重要黑特征(对应图中黑词精筛表) 。
  2. 挖掘特征之间的关系,挖掘结果导出为规则,挖掘算法使用的 FP-Growth 。

文本理解算法在抖音风控上的应用

文章插图
 




推荐阅读