『』全球最可靠疫情图每天点击量超10亿,由两名中国留美博士生操盘

【『』全球最可靠疫情图每天点击量超10亿,由两名中国留美博士生操盘】『』全球最可靠疫情图每天点击量超10亿,由两名中国留美博士生操盘
文章图片

文章图片

霍普金斯大学的全球疫情分布图(网站截屏)
一张黑底、红点 , 左右两侧列着各国确诊、死亡和恢复病例的地图 , 成为近来一些国际新闻的背景图片 。美国副总统彭斯去卫生部视察时 , 美国卫生部就用这张地图监测全国病例 , 意大利总理、德国内阁开会时 , 身后电子屏幕也正在依靠这张地图展示疫情实时情况 。
这个数据地图由美国约翰·霍普金斯大学系统科学与工程中心(CSSE)一年级博士生董恩盛等人发起并维护 。最初 , 他只是想要通过追踪数据来观察一场疫情从生到死的整个过程 , 用这些数据作为他研究疾病的工具 , 如今 , 这个每日点击量超过10亿的网站 , 已经成为多国政府高层、公共卫生学者和主流媒体引用最多的疫情数据来源 , 更新和运营这个网站成了董恩盛的“主业” 。
“无心插柳”的网红数据项目
1月21日寒假过后 , 在一次博士生组会上 , 董恩盛的导师、系统科学与工程中心副教授劳伦·加德纳和大家聊起新学期的计划 , 听说中国的新冠肺炎很严重 , 便问董要不要做个数据仪表板?
董恩盛的研究方向是疾病模型 , 也就是用数学模型和计算机代码来解释一些流行病学、公共健康方面的问题 , 对全球流行病的发展趋势做基本的判断和推测 。当时他已经在搜集数据准备做这个事情了 , 两人一拍即合 , 七八个小时后 , 第一版疫情可视化地图就做好了 , 1月22日 , 这个网站便正式面世了 。
去年5、6月份的时候 , 董恩盛与劳伦·加德纳便在另一个流行病风险性分析项目中做了一个类似的数据可视化地图 , 当时引来一些美国主流媒体的报道 。所以 , 他说技术思路上是比较成熟的 , 很快就能调试上线;另一方面 , 由于他的中文优势 , 去中国国家卫健委上面抓取数据即可 , 所以早期团队在中国疫情上比全球其他一些数据来源更及时 。
『』全球最可靠疫情图每天点击量超10亿,由两名中国留美博士生操盘
文章图片

文章图片

董恩盛(右)、杜鸿儒今年1月在美国参加学术会议 。(图片来源twitter)
起初几天 , 数据都靠他手动整理 , 每天最多能保持4~5次更新 。2月1日之后 , 这种方式变得不可持续 , 于是项目转为半自动化更新:中国的疫情数据来自丁香园的自动更新 , 而其他国家的数据依然需要人工审核 。为了发现各国新增病例 , 他们的监测渠道包括世界卫生组织(WHO)、推特、新闻报道、地方卫生部门提供的数据等等 。这一阶段 , 另一个博士生杜鸿儒也加入到数据收集和图表的制作中来 。
到了3月初 , 这个数据小组将美国疫情信息具体到县一级层面 。“因为美国郡县大概有3000多个 , 再加上世界上有200多个国家和地区 , 人工完成非常吃力 。”董恩盛告诉《中国新闻周刊》 , 于是小组招募了一些志愿者 , 把人员分了很多组 , 有的组负责国外 , 有的组负责美国国内不同地区 , 然后24小时不间断地发布最新数据 。
2月19日 , 董恩盛、杜鸿儒与劳伦·加德纳发表在《柳叶刀》杂志上的文章介绍了这项工作 。文章对比了约翰·霍普金斯大学系统科学与工程中心、WHO和中国疾控中心的数据报告 。结果发现 , 他们的病例数据与后二者报告一致 , 而且他们在捕获新国家或地区中首次报告的COVID-19(新冠病毒)病例上更加及时 。
董恩盛说 , WHO分为不同区域 , 各区域会及时更新数据 , 但是等到汇总到总部正式发布时 , 通常是第二天了——当然 , 也有极个别意外 , 尤其是最初全依赖人工操作时 。有一个周六的早晨澳大利亚报告了首例确诊病例 , 但因为董恩盛当时在睡觉 , 就没有及时更新 。


推荐阅读