人人都是产品经理内容审核基础:审核方式、流程与审核维度( 二 )
1. 关键词审核
词语过滤的环节 , 关键词主要分为三类:
1)禁止关键词
只要匹配到这个词 , 内容就被自动删除或禁止提交 。 通常只有极少数词会被纳入禁止关键词 , 比如明确的色情、邪教以及广告的专属关键词 。
2)审核关键词
这是最常见的关键词种类 , 只要匹配到就会自动进入后台进行审核 , 文章中的关键词会被高亮并罗列出来 , 有助于审核人员快速判断 。 审核关键词也应该尽量是专属关键词 , 以防止太多内容被拦截到后台 。
3)替换关键词
在许多平台 , 我们会在文中看到莫名的号或字母缩写* , 这可能不是文章作者写的 , 而是这个词被系统自动替换 。 平台不希望出现这个关键词 , 但用别的代替读者通常也能读懂 。 比如一些政治、宗教、不文明用语类词语 , 都有可能被自动替换 。
当然 , 管理员在添加关键词时 , 很多时候并不是直接把关键词添加到后台 。 否则用户用很简单的方式就可以避过关键词过滤 , 比如在关键词内加一个空格 , 系统就难以匹配到 。
所以 , 一般后台都会支持限定符{x} 以限定相邻两字符间可忽略的文字 , x 是忽略的字节数 。 在Discuz!网站后台有明确说明 , 如 “a{1}s{2}s”(不含引号) 可以过滤 “ass” 也可过滤 “axsxs” 和 “axsxxs” 等等 。
对于中文字符 , 若使用 GBK、Big-5 版本 , 每个中文字符相当于 2 个字节;若使用 UTF-8 版本 , 每个中文字符相当于 3 个字节 。
另外 , 关键词还可以支持正则表达式 , 来匹配具有一定模式的关键词 。 比如”/1\d{10}([^\d]+|$)/”(不包括引号)用来匹配手机号码 。 正则表达式的内容过多 , 大家有兴趣可以搜索学习一下 。
2. 用户发布次数限制
主要限制一名用户无限制地发送评论 。
对这种情况可以设置同一用户一分钟内最多发送一条评论;一小时内最多发送10条评论 , 一天最多发送三十条评论 , 评论次数如果超出时则弹出toast“发言太多累了吧 , 请休息下”的提示 。
其实这个限制上线后 , 发现发广告的人会不断注册新号来规避这个问题 , 后续可以考虑再加上 。 新用户需注册多长时间才可发布评论 , 或需绑定手机号才可以发布评论这些严格的条件 。
3. 重复内容过滤
这种一般都是对于发广告的 。
对比时去掉除汉字外的任何符号 , 如“抖丶音”、“快aabb手” , 对比时用“抖音”“快手”;将评论与同一用户上条评论作对比 , 10个汉字以上的若与其中一条重复率达70%(20,60%;30 , 50%)则弹出toast“请不要发布重复内容”;同时将评论仅与评论库最近发布50条的评论作对比 , 20个汉字以上的若与其中一条重复率达80%则机审失败(30,70%;50 , 60%);
在对比重复内容时一定要去掉一些无关的符号 。 因为很多小广告喜欢加空格 , 逗号这些 。 他们也通常备用好几条文案 , 可以将评论库的拿出来对比;这样也可以规避他们换号 , 换文案的问题 。
4. 白名单用户 , 黑名单用户
白名单用户、黑名单用户需要有个可编辑的后台 , 可随时增减;若同一用户一天内机审失败的评论超过10 , 则自动列入黑名单 。
白名单的用户不受发布次数限制 , 但内容需要检查广告词、敏感词、屏蔽词 , 如果一天内发布的评论超过10条机审失败 , 也自动列入黑名单 。 列在黑名单的用户发布评论时 , 弹出toast“您暂时无法发布评论”或机审直接失败 。
最后补充下 , 其实没有对IP进行限制是因为在公共区域的wifi好像IP是一样的 , 尽管非常希望处理掉垃圾评论这一问题 , 但我还是希望在不影响到普通用户的前提下 。
以上基本是一个内容审核都需要了解的点了 。
本文由 @咩咩咩 原创发布于人人都是产品经理 。 未经许可 , 禁止转载
题图来自Unsplash , 基于CC0协议
推荐阅读
- 宅客ZhaiiKer|杜比全景声音乐平台Tidal上线,暂只支持Apple TV 4K等少数产品
- cnBeta|惠普今天发布多款笔记本电脑和一些外设产品
- 恋云|每个恒星系都是太空中的一座孤岛
- 黑猫评测|明明都是国产手机,为什么有些人更偏爱华为,却不喜欢小米?
- 界面新闻|快运规模最大的安能物流发布两款高端产品,正面杠上德邦、顺丰?
- |支付宝面试题:如果你是支付宝的产品经理,如何让更多人用支付宝点外卖?
- |传统互联网产品经理正在消失,如何自救?
- 中国电池网|互动交流│常铝股份:向国轩高科供应电池箔产品
- 物流指闻|湖南卫视联手拼多多扶贫直播:超15位明星搭档市县长带货贫困地区农产品
- 驱动之家|专利文件曝光华为正开发屏下摄像头手机:正面都是屏
