数据与大流行病一较高下,人工智能的胜算在哪儿?( 二 )


从理论上讲 , 如果我们能够精准筛查出这个90%的群体 , 我们就可以解除这部分人群的限制 。 即使相互感染 , 他们不会出现严重症状 , 医疗系统也不会因不堪重负而崩溃 。 解除对这临床风险系数低的人群的隔离限制 , 也将有助于迅速建立高比例的群体免疫 , 届时剩余的10%也可以解除隔离限制 。
如果预测分数是错误的 , 后果将仅发生在最先被解除隔离的“最安全”人群中 。 相对于治疗剩下的10%或以上的高危人群 , 现有的医疗资源更容易承担“最安全”人群的治疗任务 。 当然在实践中 , 我们会从临床风险系数最低的人群开始逐步解除隔离限制 , 之后随着时间推移建立群体免疫 。
当然 , 完美的临床风险预测模型是不存在的 , 就像永远无法完善的医院分诊系统或信贷违约预测模型一样 。 然而 , 不完善的信贷违约预测模型并不妨碍企业和个人的信贷服务 , 只要这些企业和个人拥有足够高的信用评分 , 大多是不会违约的 。 可以肯定的一点是 , COVID-19疫情的临床风险明显高于信贷违约 , 因此我们需要尽可能保证预测模型的稳健可靠 , 但这并不意味着我们完全不去考虑它的可行性 。
与稀缺、昂贵并且部署缓慢的医学测试不同 , 这种临床数据驱动的个性化数字预测办法能够在市场上快速运用 , 并具有良好的可延展性 。 如果能够获得一个正确的预测模型 , 它将比目前的COVID-19追踪隔离系统更加安全和便捷 。 因为目前的COVID-19追踪系统会自动隔离所有感染者及其接触者 , 即使他们是低风险人群 。
获取数据
目前 , 要想获取临床风险预测模型建模所需的数据存在难度 。 当然 , 各国政府可以通过采用更全面的电子病历来收集全国卫生数据 , 但这些数据不一定是准确的 , 因为电子病历的历史数据和病毒传播影响的建模需要一定时间 。
本次肺炎疫情已迅速席卷全球 , 数百万人可能会因此受到影响 。 遏制疫情更好的办法可能是全球共创并共建同一个预测模型 , 利用早期的爆发数据训练该模型 。 一个同时包含数万名重症患者(需要重症监护治疗) , 以及大量轻症患者(只表现轻微症状)的数据集 , 足以实现某种程度的个性化预测 。 日后随着数据增长 , 预测质量也会逐渐提高 。
一旦建立起该模型 , 就可以在早期传播阶段帮助到其他城市和国家 , 因为人们在病历中显示的基本生物和生理数据变化不大(每个个体都会变老 , 且中国武汉的糖尿病数据与美国巴尔的摩的糖尿病数据是一样的) 。 如果病毒袭击两个人口数量相近的国家 , 那么它们遭受的结果很可能也是相似的 。 所以 , 这两个国家完全可以使用同一个预测模型 , 而不必共享训练数据 。 当然 , 由于人口组成(日本的老年人口比墨西哥多)和生活文化等差异(意大利祖父母的儿童养育参与率比德国高) , 各国之间的数据模式可能会有所不同 。 不过 , 如果为数据开发和收集设置统一的标准和规范 , 数据分析师便可以根据不同的情况设计不同的适应模型 。
我们来思考一下这该如何应用到此次COVID-19疫情中:当COVID-19病毒出现在中国武汉时 , 是不存在初始数据的 , 所以基于模型的个性化预测方法是不可行的 。 这个时候 , 封城是具有现实意义的——关闭城市 , 实行完全保持社会距离的措施 , 进行密切监测 , 除特殊情况没有例外 。 封城显然有效地遏制了疫情蔓延 , 也为中国政府创造机会去收集风险预测模型建模所需的训练数据 。 中国政府将此数据与其他国家共享 , 反过来又可以增加自己的训练数据 , 从而进一步改进预测模型 。
隐私权的挑战
然而 , 实施创新技术需要重新修订现有的政策 。 现有的数据隐私与网络安全政策 , 以及各个国家的不同标准 , 将在很大程度上阻碍了我们所提倡的个性化大流行病管理办法 。
这很大一部分原因是因为当前的政策无法辨别输入数据(用于训练模型)、预测模型本身和“输出数据”(基于训练模型的预测结果) 。 当某项政策直接或间接地禁止共享数据 , 或要求数据储存在某一个特定国家的服务器上时 , 就会导致所有法律解释为数据的内容都被隐藏了(包括模型及其参数) 。 因此 , 我们强烈希望决策者能够明确区分模型共享和数据共享的概念 。


推荐阅读