想知道你在网上的发言,被如何分析么?( 二 )
本文插图
具象一些 , 就是上面这个Excel截图示例了 。 最关键的就是第一列的关键词 , 品牌、产品、细分市场和关注点这4大类标签都是通过这些关键词进行匹配的 。
比如一句话是“奥迪a1在国内价格进一步走低” , 那么它就会被打上品牌=奥迪、产品=奥迪a1、关注点=价格、车型=小型车、能源类型=传统能源、厂商属性=进口等一系列标签 。
可以发现 , 这里面有些标签映射关系是显性的:比如产品和关注点 , 字面上提到了哪些词 , 就会被打上对应的标签;而另外一些标签是隐性的 , 依靠的就是行业图谱 , 这个行业图谱的结构基本都是依赖业务专家人工搭建 , 但关键词那列会需要很多技术支持 。
比如同样一个商品 , 官方有一种叫法 , 但消费者往往会赋予不同的昵称 , 如果漏掉后者 , 就会遗漏很多舆情数据 。
二、数据采集
本文插图
有了一个框架 , 我们就可以满世界的去爬数据了 。
正如上文演示 , 我们通过关键词去匹配数据 , 但也需要先把控一下数据的来源 。
一般情况 , 企业都会比较重视两微一抖 , 也就是微信、微博和抖音:
- 微信指的是公众号 , 这是一个很大的舆情数据来源;
- 微博虽然大家日常很少发言了 , 但对于品牌宣传来讲 , 仍然是一个兵家必争之地;
- 抖音是新晋的广告品宣投放重地 , 自然也不能放过 。
这些数据怎么来?对一些小厂商来说 , 只能靠爬虫了 , 而且还经常会被数据的拥有方通过各种反爬虫手段屏蔽 。
所以这是个体力活 , 而且爬下来的数据量级很大 , 比如微博、公众号、贴吧 , 很难做到全量的爬取 , 这就又要考验存储实力 。
所以你看 , 自己拥有这些数据 , 是多么省时省力 。
而且爬的时候也要挑 , 也有一定策略 。
比如微信公众号吧 , 这里面有大量的*** , 文章的标题正文本身 , 就代表着作者的观点 , 能量不小 。
比如前两年的《腾讯没有梦想》 , 着实让腾讯的公关在梦里都得好好想想;同时 , 公众号下面的精选评论 , 也都是网民的态度 。
那么问题就来了 , 有些文章 , 人家标题就不会有汽车啊、奥迪啊这些词 , 但正文里满满的都是对品牌的品头论足 , 这种文章你爬不爬?
还有些文章 , 标题党 , 蹭热门 , 但正文满不是那么回事儿 , 这种文章你爬不爬?还有些文章 , 本来是说奔驰的 , 结果评论翻车跑偏了 , 大家都聊奥迪去了 , 作为奥迪的厂商爸爸 , 这些评论你要不要?
想想就头大是不是?
三、数据清洗
本文插图
然而更头大的还在后面 , 数据清洗 。
行业图谱阶段 , 我们通过关键词 , 尽量多的囊括一个行业的舆情数据 , 但里面有很多噪音杂质 , 比如上面提到的标题党啊、还有各种广告水军 , 不把它们给清理干净 , 你就很难听到消费者真正的声音 。
像标题党 , 我们可以通过正文去辅助判断 , 交给机器学习就好了 , 只要文章字数够多 , 判断它是否这个行业的准确性就能足够高 。
但一些评论数据就会犯难了 , 因为它字数少 , 信息量小 , 这就需要用到上下文关系去判断了;一提到上下文语义识别 , 就很难了 , 机器目前真心没法像人一样读懂很多句子的潜台词以及上下的关联 。
这种例子不仅标题党 , 一词多义也是;比如红牛 , 它既是饮料、又是个F1车队、还是个球队的名称 , 这个词要是出现在一大段文字中还好办 , 也是就来一句“红牛不错” , 你说你咋整?
推荐阅读
- 网上车市|Type S动力曝光!搭3.0T动力媲美奥迪S4,四出排气更运动,讴歌TLX
- 广州日报|网红筋膜枪 不可盲目用
- 南京晨报|“天问一号”为什么要进行中途修正?你想知道的在这里
- 搞笑San哥|每日一笑:想知道老师是怎么发现你抄作业的吗?不要太自作聪明
- 幽默笑话大王|笑话:大家都想知道你来地球的目的!
- 废宅小编|”哈哈哈都是狠人啊!,“你在最饿时曾饥不择食吃过什么?
- 平乡县关于网上反映“镇政府干部被曝婚内多次出轨并家暴,妻子意外离世后丈夫失联”的通报
- 新民晚报|失主你在哪里?珍贵的3枚勋章在等你
- 央视新闻客户端|当心!充电宝会爆炸?12家电子商务平台40%抽检不合格 快看看有没有你在用的!
- 教育|中国教育强省前十位,你在其中吗?
