「大数据」逆行武汉的“数据侠”( 二 )


海致网聚实施总监邓华亮认为:前期工作是最难 , 也是最紧张的 , “第一次会相对复杂一些 , 等我们把这些数据接入 , 以及处理的规则都建立好了之后 , 后续再进来新的数据随时更新 , 这个过程就是自动的 。 ”
“短时间内 , 我们要接入各个部门的数据 , 做数据处理、清洗、关联 , 形成数据模型 。 数据流转机制刚刚建立 , 模型也都是摸索着做 , 改动很频繁 , 要的也很急 。 那是疫情爆发的第一阶段 , 需要做很多东西去摸索 。 ”许珂说道 。
许珂与同事们没日没夜的工作 , 从1月21日开展第一次密接人员信息发布开始 , 基本上每天都是凌晨三四点 , 甚至四五点才休息 , 早上八九点钟又要开始工作 。 一线“战疫”刻不容缓 , 许珂与同事们每天想着如何压缩时间 , 更快的形成数据模型应用 。
第一道「数据防线」
确诊病例、疑似病例、发热门诊 , 这一些患者数据 , 如果能第一时间获取 , 用于后续研判分析 , 比如去发现这些密切接触者 , 及时通知他们 , 使数据及时下发到一线社区工作人员手中 , 都至关重要 。
【「大数据」逆行武汉的“数据侠”】从1月21日开始 , 海致协助各地相关部门 , 通过海致的大数据挖掘系统 , 每天处理数据几十亿条 , 发出几万条关于“B类人群”(密切接触者)的信息 , 为社区工作人员的精准排查提供支撑 , 当时基本上是半个小时就要更新一次 。
疫情防控的数据模型非常重要 , 前线的同事们也感受到前所未有的压力 。 高勇波说 , “平常的工作会给一个时间 , 比如说一天或者两天 。 可现在同等量的工作 , 会压缩在一个小时之内就得完成 。 ”
刚开始 , 他们下班后被安排在附近酒店休息 , 但随着疫情爆发城市管制 , 外地人不允许住酒店 , 所有酒店都被腾出给援助的医疗队 。 许珂与同事们直接在办公室旁边搭一张行军床 , 累了直接休息 。

「大数据」逆行武汉的“数据侠”
本文插图
“我们只能分清白天黑夜 , 没有其他的 。 ”高勇波说 。
防疫指挥部的第一步工作是要快速地把这些数据汇聚起来 。 邓华亮向Tech星球(微信ID:tech618)说道:“汇聚起来以后 , 发现数据标准不统一 , 数据质量也参差不齐 。 然后接下来的工作就是 , 抓紧把这些数据都整理好、清洗好” , 这无疑是一个工作量巨大且高强度的事情 。
随着确诊人数不断激增 , 23日上午十点钟武汉封城 。 全国最关心问题是 , 武汉到底外流出去多少人?去了哪 , 乘坐什么交通工具?每日的数据每日结清 , 每日的数据中各类关注对象信息都要当日上报 。 这些原始的一手资料 , 只能由武汉团队第一时间进行归纳 , 相比较其他城市的防疫 , 武汉的工作量都是乘以百计、千计、甚至万计 。
邓华亮说 , “掌握了外流人员信息后 , 我们利用大数据建模手段 , 构建了上百个分析模型 , 有数据真实性的交叉验证模型 , 有落地确诊病例模型 , 有外流人员去向查找模型 , 有密切接触人员身份落地模型等等 。 然后把这些模型的分析数据推送给一线防疫人员 , 抓紧去落地核查 。 可以说一个模型就是一个战场 , 每个战场都关乎生死 。 ”
临时团队人员少 , 在巨量的数据处理信息面前 , 难免会出现各式各样的问题 。 “因为是多部门、多系统向一个地方汇集 , 又从一个地方向外发送 , 相较于技术支撑的难度 , 在整个分析运行的协同机制上可能会存在更多的问题 , 每天除了解决技术问题 , 更多的时候我们还要跟不同的部门进行沟通 , 提醒数据上报 , 询问接受反馈 , 确保工作顺畅进行 。 机制运行之外 , 就是不断地完善算法和功能 , 尽可能的压缩技术处理的时间 , 每压缩一点 , 就有更多的时间去处理更多的问题 。 ”许珂向Tech星球解释 。


推荐阅读