对话清华沈阳：新冠大幅压缩矛盾爆发时间，评估未来考虑疫情变数( 二 )

【对话清华沈阳：新冠大幅压缩矛盾爆发时间，评估未来考虑疫情变数】从1亿网络数据找到风险：不提倡使用内部数据，要有挖掘公开数据的能力

南都：要发现风险弱信号并实现预测，需要哪些数据支撑？是否需要政府或企业的内部数据？
沈阳：我们对风险的判断，全部是基于公开数据，包括微博、微信、网页、客户端、论坛、贴吧、短视频等。我们团队一贯提倡使用网络公开数据做发现、预测、预警。我们不提倡使用内部数据，这既会涉及到一系列管理规定，同时内部数据也会存在失真。
其实，我们做国际分析的时候，也只能拿到外部数据，这就需要有网络公开数据的挖掘和分析能力。目前，我们团队每天的数据量超过1亿多条。当然，这个数据量也意味着价值密度不高。比如，我们要预测一支股票的走势，但贴吧里有大量从事商业推广的水军在灌水，这部分是不能作为预测工具的，或者权重占比要非常低。
南都：有一个比较现实的问题，全世界能接触网络、有网络使用习惯并会公开发表言论的人还是少数。这种情况下，基于公开数据做推断，有没有可能出现偏差？
沈阳：传统上做分析和预测，大多基于抽样调查。但从目前情况看，抽样调查的方法其准确性有时候也是要打问号的。未来可能要将小数据调查和大数分析结合起来。
确实，大部分人是不说话的。但我们也可以建模，根据喧哗的少数来推测沉默的大多数。有一些科学模型可以推测他们的逻辑，他们的想法是什么。随着技术手段增强，大家使用社交网络的时间越来越长，推测沉默大多数的能力也会越来越强。
南都：在事件早期，互联网上可能还没有具体的“信号” ，怎样作出预测?
沈阳：我们目前有一套热点发现系统，可以监测中国近3000个县的热点事件，从中筛选出可能存在的风险。除了固定地区的监测外，我们还会定义一批风险敏感者，如果他们说的一件事不在热搜里，且这件事可能有指数级的增长，就会纳入我们的观测范围。
南都：风险敏感者是怎么找到的?
沈阳：我们研究舆论的时间也有10年了，所以积累了大量网络当中的意见领袖。我们的数据库中，微博上的风险敏感者超过10万人。他们一旦释放了新的信号，我们就会跟进。
例如，疫情之中医生就是我们的关注重点，因为他们对疾病比较敏感。跑医疗口的采访人员我们也会比较关注，有些事情医生不方便说，采访人员可能就会告诉你。此外，网络中很常见的个人看病吐槽我们也会关注。

新冠疫情带来的风险变数：历史进程加速与矛盾压缩爆发

南都：作为风险预测者，你是怎么理解风险的？
沈阳：整体上看，随着技术进步，人类对地球环境的影响极大，社会风险在全球范围内有了比较明显的提升。
一是技术性能指数级增长风险。技术性能的指数级增长让全球技术风险大规模提升。二是自然灾害和社会行为风险。人为对自然环境改造所造成的自然灾害风险，有可能导致黑天鹅事件。三是各种风险叠加后形成的系统性风险。四是舆论欺诈导致的个体的人财物风险。五是国际博弈风险。
南都：新冠肺炎对风险的形成有哪些影响？
沈阳：新冠肺炎疫情到来后我们提了三个理论来解释各种风险现象。
第一个是“新冠加速论” 。新冠疫情让本该在未来到来的很多事情加速到来，这种加速度大幅增加了风险概率，也带来了许多机遇。例如，机器人对人的大规模替代原本可能若干年后才会发生，但疫情加速了这一天的到来，可能会导致一些失业现象。为了发现新冠疫情，也推动实现“弱隐私的大数据洞察” 。
第二个是“新冠指数论” 。新冠疫情是人类第一次整体性呈指数级增长的全球公共卫生危机。这种指数级影响表现为经济影响、政治影响（如冲突加剧）以及公众心态影响的指数级共振。在这样的情况下，线性应对措施难以应对指数级增长。因此，指数级危机需要有指数级的应对措施。