对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数( 二 )


2
【对话清华沈阳:新冠大幅压缩矛盾爆发时间,评估未来考虑疫情变数】从1亿网络数据找到风险:不提倡使用内部数据 , 要有挖掘公开数据的能力
南都:要发现风险弱信号并实现预测 , 需要哪些数据支撑?是否需要政府或企业的内部数据?
沈阳:我们对风险的判断 , 全部是基于公开数据 , 包括微博、微信、网页、客户端、论坛、贴吧、短视频等 。 我们团队一贯提倡使用网络公开数据做发现、预测、预警 。 我们不提倡使用内部数据 , 这既会涉及到一系列管理规定 , 同时内部数据也会存在失真 。
其实 , 我们做国际分析的时候 , 也只能拿到外部数据 , 这就需要有网络公开数据的挖掘和分析能力 。 目前 , 我们团队每天的数据量超过1亿多条 。 当然 , 这个数据量也意味着价值密度不高 。 比如 , 我们要预测一支股票的走势 , 但贴吧里有大量从事商业推广的水军在灌水 , 这部分是不能作为预测工具的 , 或者权重占比要非常低 。
南都:有一个比较现实的问题 , 全世界能接触网络、有网络使用习惯并会公开发表言论的人还是少数 。 这种情况下 , 基于公开数据做推断 , 有没有可能出现偏差?
沈阳:传统上做分析和预测 , 大多基于抽样调查 。 但从目前情况看 , 抽样调查的方法其准确性有时候也是要打问号的 。 未来可能要将小数据调查和大数分析结合起来 。
确实 , 大部分人是不说话的 。 但我们也可以建模 , 根据喧哗的少数来推测沉默的大多数 。 有一些科学模型可以推测他们的逻辑 , 他们的想法是什么 。 随着技术手段增强 , 大家使用社交网络的时间越来越长 , 推测沉默大多数的能力也会越来越强 。
南都:在事件早期 , 互联网上可能还没有具体的“信号” , 怎样作出预测?
沈阳:我们目前有一套热点发现系统 , 可以监测中国近3000个县的热点事件 , 从中筛选出可能存在的风险 。 除了固定地区的监测外 , 我们还会定义一批风险敏感者 , 如果他们说的一件事不在热搜里 , 且这件事可能有指数级的增长 , 就会纳入我们的观测范围 。
南都:风险敏感者是怎么找到的?
沈阳:我们研究舆论的时间也有10年了 , 所以积累了大量网络当中的意见领袖 。 我们的数据库中 , 微博上的风险敏感者超过10万人 。 他们一旦释放了新的信号 , 我们就会跟进 。
例如 , 疫情之中医生就是我们的关注重点 , 因为他们对疾病比较敏感 。 跑医疗口的采访人员我们也会比较关注 , 有些事情医生不方便说 , 采访人员可能就会告诉你 。 此外 , 网络中很常见的个人看病吐槽我们也会关注 。
3
新冠疫情带来的风险变数:历史进程加速与矛盾压缩爆发
南都:作为风险预测者 , 你是怎么理解风险的?
沈阳:整体上看 , 随着技术进步 , 人类对地球环境的影响极大 , 社会风险在全球范围内有了比较明显的提升 。
一是技术性能指数级增长风险 。 技术性能的指数级增长让全球技术风险大规模提升 。 二是自然灾害和社会行为风险 。 人为对自然环境改造所造成的自然灾害风险 , 有可能导致黑天鹅事件 。 三是各种风险叠加后形成的系统性风险 。 四是舆论欺诈导致的个体的人财物风险 。 五是国际博弈风险 。
南都:新冠肺炎对风险的形成有哪些影响?
沈阳:新冠肺炎疫情到来后我们提了三个理论来解释各种风险现象 。
第一个是“新冠加速论” 。 新冠疫情让本该在未来到来的很多事情加速到来 , 这种加速度大幅增加了风险概率 , 也带来了许多机遇 。 例如 , 机器人对人的大规模替代原本可能若干年后才会发生 , 但疫情加速了这一天的到来 , 可能会导致一些失业现象 。 为了发现新冠疫情 , 也推动实现“弱隐私的大数据洞察” 。
第二个是“新冠指数论” 。 新冠疫情是人类第一次整体性呈指数级增长的全球公共卫生危机 。 这种指数级影响表现为经济影响、政治影响(如冲突加剧)以及公众心态影响的指数级共振 。 在这样的情况下 , 线性应对措施难以应对指数级增长 。 因此 , 指数级危机需要有指数级的应对措施 。


推荐阅读