想知道你在网上的发言,被如何分析么?( 三 )
好在 , 技术在不断的进步 , 而且大数据时代嘛 , 大家都追求用足够多的“好数据”淹没稀释那些“脏数据” , 不影响大面儿上的结论就还好 。
四、模型识别
本文插图
进一步 , 非常需要用情感模型来识别消费者的评价是好是坏 , 而且我们的目标更高阶一些 , 不仅仅要识别出消费者对品牌or产品的看法 , 还要具体到对品牌or产品的某个关注点的看法 , 这对情感模型也是一件颇有难度的事儿 。
比如“奔驰的外观比较大气稳重 , 要是价格也能像外观一样就好了” , 这句话里既有品牌词(奔驰)、也有关注点词(外观、价格)、还有表达情感正负向的词(大气稳重) 。
我们人类是比较好识别出来 , 这句话是夸奔驰的外观 , 但对它的定价略有微词 。
可对机器就比较犯难了 , 首先机器需要能识别出 , “大气稳重”这个褒义词跟“外观”是一对儿 , 而不是修饰“价格”的;其次 , 机器还需要能理解“要是xxx也能像xxx一样就好了”这种句式 , 稍有不慎就会把“价格”跟“好”凑成一对 , 那不就满拧了么?
五、观点组织
本文插图
最后我们来到了数据呈现阶段 , 很多数据产品往往就砸在这儿 。
一开始就说了 , 厂商需要的就是清晰的告诉他们 , 消费者对品牌or产品的具体评价 , 那我们就按照品牌or产品来组织数据 , 并且将情感正负向与关注点交叉 , 让评价能够更具体 。
进一步 , 当点击上图中的任何一个色块时 , 都可以弹出对应这个关注点的情感倾向的具体言论 , 让厂商爸爸们不仅知其然、还能知其所以然 。
本文插图
除了条形占比图的呈现以外 , 厂商爸爸们还很喜欢上面这种散点图 , 它是由对应分析方法画出来的 。
这个图其实就是把二维列联表格式的数据进行可视化处理 , 原始数据其实就是这么一个Excel表格 。
表格中的数字 , 表示同时提到某个品牌和某个关注点的数据量 。
比如大家在讨论宝马的时候 , 经常会提及操控性和动力;在提及奔驰的时候常常把舒适性和外观挂在嘴边;反应在图形上 , 就是宝马距离操控性和动力两个点会更近一些 , 奔驰距离舒适性和外观两个点会更近一些 。
但这种图也有它的问题 , 就是直观有余但量化不足;不过客户往往就喜欢这种直观可解释性强的东西 , 你要是真给他整一个深度神经网络 , 还真不见得他会买单 。
六、待改进的点
当然 , 上述的5个步骤都还有较大的提升空间 , 比如会在网上发表评论的用户 , 是不是本身就比较有偏?他们的声音能否真正的代表广大消费者的看法?以及 , 目前的机器学习对评论数据理解的准确性能否更进一步 , 像个人一样去理解句子?
最后再叨叨一句舆情数据产品这个行业 , 其实上面的分析讲解已经可以看到 , 这是一个相对重资产、体力活、且游走在灰色边缘的事儿 , 很大互联网大厂看不上这块小肉 , 这反倒给了很多第三方小公司一些生存空间 。
不过他们有没有不同的行业专家帮忙搭建各个行业的图谱?能不能顺利爬到足够覆盖率的舆情数据?爬回来之后调用那些开源的NLP能力接口能否分析的精准?最后的产品化打磨能否到位?这些点 , 都会影响最终的商业售卖 。
作者:古牧聊数据 , 公众号:古牧聊数据
本文由 @古牧聊数据 原创发布于人人都是产品经理 。 未经许可 , 禁止转载 。
题图来自Unsplash , 基于CC0协议
推荐阅读
- 网上车市|Type S动力曝光!搭3.0T动力媲美奥迪S4,四出排气更运动,讴歌TLX
- 广州日报|网红筋膜枪 不可盲目用
- 南京晨报|“天问一号”为什么要进行中途修正?你想知道的在这里
- 搞笑San哥|每日一笑:想知道老师是怎么发现你抄作业的吗?不要太自作聪明
- 幽默笑话大王|笑话:大家都想知道你来地球的目的!
- 废宅小编|”哈哈哈都是狠人啊!,“你在最饿时曾饥不择食吃过什么?
- 平乡县关于网上反映“镇政府干部被曝婚内多次出轨并家暴,妻子意外离世后丈夫失联”的通报
- 新民晚报|失主你在哪里?珍贵的3枚勋章在等你
- 央视新闻客户端|当心!充电宝会爆炸?12家电子商务平台40%抽检不合格 快看看有没有你在用的!
- 教育|中国教育强省前十位,你在其中吗?
