如何通过1亿条微博、文章、短视频,提前预测到汛情?

6月28日 , 沈阳给在武汉的父亲打了一个电话:劝他去地势较高的地区旅游 。 这通电话源自6月8号的桂林内涝新闻 , 两地相隔700多公里 。
沈阳发出这条提醒的时候 , 2020年的水患还没完全引发社会各界的关注 。 当天中午的微博热搜更多关注疫情防控和未成年人保护法修订 。 直到晚上 , 热搜里才有几条暴雨的消息 。
但6月初那条新闻确实引起了沈阳的注意 , 作为清华大学新闻与传播学院的教授 , 他长期从事舆论分析研究 , 在网络上有100万粉丝 。 在分析网友言论和长期天气预报后 , 他预感到位于长江中游的武汉可能出现内涝 , 便给父亲打电话提个醒 。
在电话里 , 父子俩经历了一番争执 , 不愿走动的父亲拒绝了儿子的建议 , 但沈阳的预测却逐渐得到印证 。
7月12日17时 , 汉口江滩三阳门封闭 , 这是自2002年建成后汉口江滩第一次全面过水行洪 。 当晚 , 武汉水位达到28.77米 , 突破历史第四高水位 。 而在整个南方 , 这场百年一遇的大洪水已造成27省份3789万人次受灾 , 死亡失踪141人 , 倒塌房屋2.9万间 。
如何通过1亿条微博、文章、短视频,提前预测到汛情?
文章图片

7月11日 , 长江汉口站水位持续上涨 , 上涨的江水即将淹没武昌黄花矶凉亭 。新华社采访人员 肖艺九 摄
如何从1亿多条微博、文章、短视频中为未来可能发生的危机预警?在沈阳看来这并非不可能:通过对全网公开信息的分析和挖掘 , 有望从小微舆情中发现潜在危机 , 并精准预测风险走向 。

1
网络舆情预测风险:预感武汉疫情暴发 , 临近发车退掉车票
自大数据概念进入中国以来 , Google用大数据预测美国流感暴发的事迹屡被提及 。 “谷歌流感趋势”有着简单易懂的逻辑:特定关键词的搜索数量可能反映当地的流感疫情 。
但由于预测模型的不足 , 这一系统的预测结果渐渐走偏 , 与实际情况差距越来越大 , “大数据预测”也更多停留在学术层面 。 而让沈阳进入预测领域的 , 却是一次生活经历 。
1月18日 , 沈阳准备回武汉过年 。 当时他隐约有些印象 , 武汉出现了某种传染病 。 离发车还有两个多小时 , 沈阳用自己的大数据系统筛选出部分网友评论 , 又用微信找网友确认了一下细节 。 预感到武汉的疫情可能有些严重 , 他先斩后奏把票退了 。
“我父亲当时不是很理解 , ”在和家人反复沟通后 , 父亲勉强同意他不回家过年了 。 几天后 , 钟南山披露新冠病毒存在人传人现象 , 全国进入抗疫时间 。
这次成功的预警也刺激到沈阳 , “我以前做大数据分析 , 从来没想过这件事可以跟自己的生活这么密切相关 。 ”
沈阳将这种预测方法命名为“基于网络公开数据的风险弱信号发现与预测” 。 他表示 , 通过公开的网络舆情 , 可实现对风险弱信号的发现和预警 。 他将之视为一个新的研究领域 。
所谓“风险弱信号”往往有一类特征——在舆论场中总量不多 , 上网的时候很难注意到 , 但其蕴含的风险性可能在未来指数级增长 。 形象的说 , 这件事肯定不在“热搜”里 , 等上“热搜”的时候这件事已经发生并且很大程度上在发酵了 。
他告诉南都 , 这些“风险弱信号”可能潜藏在微博、微信、网页、客户端、论坛、贴吧、短视频等各个角落 。 而他要做的 , 就是从每天1亿多条全网数据中 , 找到那个最终可能演变为危机的风险 。
2
由案例找规律:预测北京二轮疫情走势 , 加入日韩传播模型
3月初 , 沈阳在一条微博上对外宣告:今天我们团队成立了灰犀牛研究小组 , 涵盖灰犀牛大数据、黑天鹅大数据、灰犀牛和黑天鹅预警研判 , 就目前而言 , 我团队已经具备数月内会发生的高概率事件的一定预测能力 。
这条微博下除了一些“点赞”的表情包 , 也有质疑之声 。 “靠谱嘛?”一名网友写道 。


推荐阅读