审核|数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院( 二 )


广告导流识别
主要针对广告导流黑产团伙在社交软件中发布的大量垃圾广告、诈骗广告 , 利用智能文字变体识别能力 , 可以精准识别欺诈广告、导流广告 , 支持广告法合规性检查 , 减少违规风险 , 上万种主流联系方式(微信、QQ、手机号、网址、公众号、百度搜索、微博、广告法合规等)变体特征库 。
审核|数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院
文章图片
智能文本审核风险趋势demo
汉语文化博大精深 , 同一个词在不同语境中意义差别极大 , 传统敏感词匹配技术的准确率很难达到精准高效审核的要求 。 数美智能文本过滤识别准确率高达99%以上 , 可对文本进行快速处理 , 极大降低误杀率 , 并减少人工审核成本 , 有效杜绝线上风险 。
在技术指标上 , 数美智能文本过滤API平均响应时间低于50ms , 最大响应时间500ms , 超时率低于0.1% , 吞吐大于100QPS , 还可根据需求水平扩展 。 并可支持UTF8多语言文本字符编码 , 文本内容限制为不超过1MB、2万字 。
数美核心技术优势:文本分类NLP模型 数美智能文本过滤采用了word2vec词向量、fasttext文本分类等技术 , 基于海量文本语料训练NLP模型 。
Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型 , 它被大量地用在自然语言处理(NLP)中 。 它通过学习文本来用词向量的方式表征词的语义信息 , 即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近 。
Embedding其实就是一个映射 , 将单词从原先所属的空间映射到新的多维空间中 , 也就是把原先词所在空间嵌入到一个新的空间中去 。
其中 , 在Word2Vec模型中 , 主要有Skip-Gram和CBOW两种模型 , 从直观上理解 , Skip-Gram是给定input word来预测上下文 。 而CBOW是给定上下文 , 来预测input word 。
审核|数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院
文章图片

审核|数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院
文章图片

fastText资料库 , 能针对文本表达和分类帮助建立量化的解决方案 , fastText结合了自然语言处理和机器学习中最成功的理念 。 这些包括了使用词袋以及 n-gram 袋表征语句 , 还有使用子字(subword)信息 , 并通过隐藏表征在类别间共享信息 。
另外 , 数美人工智能研究院采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程 。 这些不同概念被用于两个不同任务:有效文本分类和学习词向量表征 。 在文本处理领域中深度神经网络近来大受欢迎 , 但是它们训练以及测试过程十分缓慢 , 这也限制了它们在大数据集上的应用 , fastText却能够直接解决这个问题 。
fastText 专注于文本分类 。 这使得在特别大型的数据集上 , 它能够被快速训练 。 使用一个标准多核 CPU , 就得到了在10分钟内训练完超过10亿词汇量模型的结果 。 此外 , fastText还能在五分钟内将50万个句子分成超过30万个类别 。
【审核|数美科技的智能文本审核能为社交行业带来什么价值 | 数美人工智能研究院】数美人工智能研究院长期深耕在智能文本识别NLP模型训练和开发中 , 不断和黑产欺诈团伙抗争 , 并从内容、行为、画像多维度协同AI , 精准有效识别违规内容 , 形成了一站式智能风控引擎 。 数美科技作为一家专业从事AI风控解决方案提供商 , 也会持续为全球千家社交行业客户在线业务保驾护航 。


推荐阅读