「埃尔法哥哥」语义不畅低质文本识别与应用如何撑起58同城海量数据?
为了识别业务数据中存在的随机字、语义不连贯、不符合常用规范的语言现象 , 本文提出了一种利用大规模无监督语料 , 训练语言模型计算语句困惑度的方法 , 将低质文本识别问题转化为阈值判定问题 。 实际应用效果表明 , 该方法具有无数据标注成本、识别准确率高、领域迁移性强等特点 , 可以快速有效地推广到其他业务场景 。
背景
移动互联网蓬勃发展的时代 , 随着互联网服务提供商竞争的加剧 , 国家对重点行业服务水平要求的不断提高 , 促使信息服务提供商对其业务质量、用户体验越来越关注 , 进而提升客户满意度 , 减少投诉 , 增加核心竞争力和品牌价值 。
58同城作为国内最大的生活服务平台 , 拥有招聘、房产、二手车、本地服务、金融等业务板块和庞大的用户群体 , 每天业务信息发布数据量高达数亿 , 文字作为内容信息的主要载体 , 承载着人们表达、沟通的需求 , 严格控制文本信息质量 , 具有重要的意义 。
由于用户基数大 , 信息覆盖范围广 , 网民素质参差不齐 , 难免存在劣质用户发布虚假、涉黄、涉政、广告、灌水等违规帖子数据 。 如在招聘业务场景中 , 存在一些生僻字、随机字、语义不连贯等语言现象 , 如:“30/小时招聘日结小时工假期兼职-荡贸”、“淄博桓台县萍敢诙捞环胁恫有限公司” 。
58同城坚持用户至上的原则 , 坚决杜绝这种降低数据信息质量、影响用户体验的行为发生 , 海量的数据给信息审核工作带来了巨大的挑战 。 我们从低质文本的特点分析入手 , 利用大规模的无监督文本数据 , 训练神经概率语言模型 , 通过计算困惑度的方式进行识别 , 为做好发帖质量优化、违禁信息过滤、信息质量监控提供了落地方案 。
低质文本特点分析
1. 低质文本的定义
低质文本:是指在具体业务场景下 , 句子中出现无意义文字或符号 , 语义表达不连贯 , 不符合常用规范的语言现象 。
2. 低质文本的特点
2.1 对抗性强 , 变化快
黑产通过发帖机短时间内生成大量的低质文本 , 在被业务线发觉拦截后 , 会不断的变化生成的方式 , 绕过风控的策略 , 表现出较强的对抗性 。
目前 , 业务线主要是通过寻找字面上的规律 , 制定规则 , 对文本进行匹配的方式进行拦截 , 这种做法主要有三个问题:
a) 滞后性 , 只能识别已经被发觉的低质文本 , 时间上表现为滞后性 , 此时低质文本已经对用户体验产生了伤害 。
b) 只能识别特定模式的低质文本 , 对于对抗后变换规则的低质文本 , 识别方法失效 。
c) 覆盖率低 , 很难覆盖线上所有类型的低质文本 。
2.2 数据稀疏性 , 收集成本高
低质文本虽然类型繁多 , 变化多端 , 特定类型的低质文本数据 , 表现出较强的数据稀疏性 , 通过人工筛选的方式耗时耗力 , 实施成本高 。
2.3 数据量大 , 人工推审效率低
业务场景低质文本数据量大 , 风控难度高 。 目前 , 各业务线主要是通过规则的方式 , 拦截低质文本 , 然后通过人工推审的方式做相应的处理 , 效率低下 。
低质文本识别方案设计
那么有没有一种方式 , 可以只利用正常的线上业务数据或网络上公开的百科数据、新闻类数据训练模型 , 对某一条语句从语义连贯性、符合规范性上进行度量 , 根据度量的大小来识别低质文本呢?
本文通过利用正常数据训练语言模型 , 计算某个单词在上文环境下出现的概率 , 再去计算整个语句的困惑度得分score , 如果得分score大于特定阈值的情况下 , 该语句就是低质文本 。 识别流程如图1所示:
本文插图
图1:低质文本识别流程图
1. 困惑度的定义
【「埃尔法哥哥」语义不畅低质文本识别与应用如何撑起58同城海量数据?】
推荐阅读
- 『本命英雄王昭君』哥哥不会死,向华强揭开张国荣死亡内幕没有张柏芝
- 娱乐小队■Stelvio对决宝马X4 M,直线对决,阿尔法罗密欧
- 「豆豆看娱乐乐」车长近5米,丐版不足8万,还是7座,号称“平民埃尔法”
- 『fun娱乐』唐鹤德发文缅怀哥哥,张国荣:为爱疯魔又如何,风继续吹
- 车家号:GTA/GTAm官图发布,极度轻量化是亮点,阿尔法·罗密欧Giulia
- 『朝阳群众』发声怒斥她不配,具荷拉哥哥拒绝母亲继承遗产
- #代军哥哥#妈妈是著名演员,39岁的她很美却还是单身,爸爸是印尼富商
- 『爱卡汽车』重温经典阿尔法·罗密欧8C,限量的V8激情
- 我知圈里事@不久前选了一辆丰田威尔法,车主说了用车体会,听了朋友建议
- 「车家号」“零重力”座椅+贯穿屏!还幻想埃尔法?,新款别克GL8实车
