技术方案模型架构:多 channel 输入对同音、形近变体更加鲁棒

文章插图
训练方法:样本增广 + 一致性训练

文章插图
样本降噪:解决数据中的错误标签

文章插图
自动迭代
- 主动学习提高审出
- 监控看板保证质量

文章插图
风险信息提取黑产作弊文本经常会包含一些关键信息,作弊手法会变但关键信息不易变(或者变化成本较高),如果能够正确识别出文本中的关键信息,就能有效提升防御体系鲁棒性 。目前已有建设 3 种风险信息提取能力:风险联系方式、风险变体、风险文本片段 。其他场景下,比如电商业务中风险地址提取,也能够参考构建类似能力 。
风险联系方式抖音是流量聚集地,黑产为了谋利往往会将流量引到端外,进而实施违法行为,因此识别黑产留下的联系方式是一项重要能力 。
能力全景图从使用阶段划分,包含 判别->提取->风险分->风险标签 。
- 判别(有没有联系方式):包含高准、高召两部分模型集,根据使用场景、治理阶段不同选取相应模型集 。
- 提取(联系方式在哪):支持将提取出的变体联系方式归一化,并且有例行挖掘任务,不断补充新型变体数字字母 。
- 风险分(有没有风险):基于联系方式风险特征,训练得到风险分模型 。
- 风险标签(风险是啥):也区分高准和高召 。高准通过人工标注,高召通过用户-联系方式二部图标签扩散方式得到 。

文章插图
风险变体黑产为了对抗文本识别能力,会对文本关键部分变体 。由于大部分文本模型不会经常更新,导致模型效果会随着时间逐渐衰减 。为了解决这个问题,将文本变体能力与下游文本能力解耦开,当变体识别能力提升时,所有下游任务均可受益 。
PS:如果黑产文本变体太快,会不会跟不上,这样能力建设有啥意义?
前期的简单变体,我们的能力都会覆盖,越到后期,黑产创造新变体的成本会越高,更考验的是能力是否在不断迭代更新 。
技术方案变体挖掘->变体判别->变体映射表流程可自动化运行,不断挖掘得到新变体 。

文章插图
风险文本片段黑产除了对关键信息变体,还会对非关键文本做话术变换 。黑产为了表达意图,关键信息不会很发散,来来回回可能就那几个关键词,但是会变换话术以此对抗识别模型,我们只需要从黑产发的大量文本中,找出表达意图的关键信息,即可提升系统对话术变换的鲁棒性 。

文章插图
技术方案整体技术方案总结来说就两步:
- 获取文本重要黑特征(对应图中黑词精筛表) 。
- 挖掘特征之间的关系,挖掘结果导出为规则,挖掘算法使用的 FP-Growth 。

文章插图
推荐阅读
- 算法:正则表达式匹配
- 请你说一下你对滑动窗口算法的理解
- 变频空调和定频空调的区别
- 对营与健康本质的理解与思考
- 理解了镜像和容器,你就掌握了Docker的80%
- 阿里朋友的忠告:大厂里的算法很重要,先来了解一下希尔排序
- 极限的运算法则是什么?
- 语文阅读理解解题技巧有哪些?
- 话不多说!程序员必学的十大算法
- 草船借箭的课文理解,草船借箭这篇课文表达了什么-
