『蝌蚪五线谱』荐书丨《疫情来袭》,大数据能准确预测疫情拐点吗?


随着新型冠状病毒感染肺炎疫情蔓延 , 传染病防治关系到每一个人的生命健康 。
在这次疫情的预防和治疗中 , 大数据起到了很重要的作用 。
哈佛大学免疫学和传染病学博士内森 ? 沃尔夫的《病毒来袭》 , 对传染病进行了理智细致的分析 , 教我们如何用应用大数据来预防和治疗疾病 。
『蝌蚪五线谱』荐书丨《疫情来袭》,大数据能准确预测疫情拐点吗?
本文插图
《病毒来袭》
【美】内森 ? 沃尔夫 著 沈捷 译
湛庐文化 / 浙江人民出版社
大数据自从2008年以后变成一个很火的概念 。 事实上这个概念出自于金融行业 , 因为金融行业对于数字是最敏感的 , 银行业总是希望知道应该给什么样的人发放贷款 , 它们能够保证收回贷款 , 还要收到利息 , 不能给什么样的人发放贷款 。
所以在2021世纪初 , 金融行业发展出了一些模型 , 用来预测人们的消费行为和他们的金融行为之间的关系 。 这样做的后果是什么呢?银行的业绩大大的扩展了 , 然而次贷危机也发生了 。
不管结果怎么样 , 这些模型已经显示了它的威力 , 就是通过对于遗忘存在的海量数据的分析 , 可以对人类的行为进行分类 , 进而可以预测人类的行为 。 所以实际上大数据简单讲就是两件事情:分类和预测 , 分类的目的是为了预测 。
明白了这一点 , 对于疾病来说 , 有没有办法对治疗、愈后以及病情的发生发展进行预测?答案是肯定的 。
当有了足够多的数据 , 当有了足够多的关于这些数据的处理的知识之后 , 那么你就可以对发生了的疾病 , 会对在特定的人身上产生的效果作出预测 , 同时也可以对在什么情况下会暴发什么样的疾病进行预测 。
每年防疫系统都会发布流感的暴发趋势的预测 , 他们的数据是怎么来的呢?对于疾控系统来说 , 他们来自于所谓的各种各样的哨点监测数据 , 什么意思?就是在基层的诊社区设立发热门诊 , 这些发热门诊会报告每天、每周、每月的发热人数 , 这些发热人数汇总起来了以后 , 通过模型的计算 , 可以从时间尺度上看出一些变化 , 比如说从10月底开始就会出现发热的人数的增加 , 这个时候就可以预测出流感的高峰要来了 。
另外一个路径 , 比如说利用Google这个搜索引擎工具 , 它本身也是一个大数据工具 。
当有人得了感冒 , 他会根据感冒的症状 , 他会去这些搜索引擎上搜索感冒怎么治?如果有100万个人在同一天都发出这样的搜索关键词 , 那么搜索引擎就会把这些相关联的关键词形成一个搜索页面 , 然后就可以利用这个搜索页面上呈现的数据做出预测 。
两年前Google发表了一篇论文 , 他们通过这种办法 , 提前预测到了流感高峰的到来 , 甚至比美国疾控系统提前一周左右 。 Google现在也已经开发了这样的工具 , 用户可以用这种关键词去进行搜索 , 通过这种方式就可以帮助大众了解疾病发展的动态 。
比如对这次疫情发布实时新增和确诊病例数据的丁香园 , 就是利用大数据来进行病情发展趋势的预测 。
『蝌蚪五线谱』荐书丨《疫情来袭》,大数据能准确预测疫情拐点吗?
本文插图
全国新冠肺炎疫情实时动态
图自丁香园
除此之外 , 大数据时代还有利于建立流行病毒的数据库 。
每当科学家对一个新的病毒进行基因测序之后 , 就会把这些数据上传到世界卫生组织建立的数据库里 , 形成一个传染性病毒的基因库 。 这些数据也可以供世界各国进行再分析 。 比如基因序列分析 , 进而就可以知道病毒是如何进化来源是什么 。 这样做的好处是可以对病毒进行溯源了 , 另外还可以看到这些病毒的传染性在分子层面上的变化 。
『蝌蚪五线谱』荐书丨《疫情来袭》,大数据能准确预测疫情拐点吗?


推荐阅读