文本理解算法在抖音风控上的应用( 二 ) _算法

技术方案模型架构：多 channel 输入对同音、形近变体更加鲁棒

文章插图

训练方法：样本增广 + 一致性训练

文章插图

样本降噪：解决数据中的错误标签

文章插图

自动迭代

主动学习提高审出
监控看板保证质量

文章插图

风险信息提取黑产作弊文本经常会包含一些关键信息，作弊手法会变但关键信息不易变（或者变化成本较高），如果能够正确识别出文本中的关键信息，就能有效提升防御体系鲁棒性。目前已有建设 3 种风险信息提取能力：风险联系方式、风险变体、风险文本片段。其他场景下，比如电商业务中风险地址提取，也能够参考构建类似能力。
风险联系方式抖音是流量聚集地，黑产为了谋利往往会将流量引到端外，进而实施违法行为，因此识别黑产留下的联系方式是一项重要能力。
能力全景图从使用阶段划分，包含判别->提取->风险分->风险标签。

判别（有没有联系方式）：包含高准、高召两部分模型集，根据使用场景、治理阶段不同选取相应模型集。
提取（联系方式在哪）：支持将提取出的变体联系方式归一化，并且有例行挖掘任务，不断补充新型变体数字字母。
风险分（有没有风险）：基于联系方式风险特征，训练得到风险分模型。
风险标签（风险是啥）：也区分高准和高召。高准通过人工标注，高召通过用户-联系方式二部图标签扩散方式得到。

文章插图

风险变体黑产为了对抗文本识别能力，会对文本关键部分变体。由于大部分文本模型不会经常更新，导致模型效果会随着时间逐渐衰减。为了解决这个问题，将文本变体能力与下游文本能力解耦开，当变体识别能力提升时，所有下游任务均可受益。
PS：如果黑产文本变体太快，会不会跟不上，这样能力建设有啥意义？
前期的简单变体，我们的能力都会覆盖，越到后期，黑产创造新变体的成本会越高，更考验的是能力是否在不断迭代更新。
技术方案变体挖掘->变体判别->变体映射表流程可自动化运行，不断挖掘得到新变体。