■Google的AI诊断在临床受挫,同行:在实验室达到准确度只是第一步( 二 )


一些护士认为 , 在现实条件下 , 可以通过拍摄两次图像合成一张完整的图像 , 他们希望系统能做到这一点 。 但系统做不到 , 因为参数设置要求每一张照片都必须是高质量的 。 这让护士感到沮丧 , 相机的闪光灯会造成病人的不适 , 病人最多接受两次拍照 , 并且两次拍照也会浪费时间 。
■Google的AI诊断在临床受挫,同行:在实验室达到准确度只是第一步
本文插图

图 | 一名护士试图通过拍摄同一只眼睛的两张照片 , 在不同的光线条件下合成一只眼睛的图像(来源:论文)
另一个重要的问题是 , 整个系统的运转强烈依赖网络 , 图像要被上传到云端才能被评估 。 但是在此项研究中的诊所网络连接时长出问题 , 往往需要 60-90 秒才能完成上传 , 严重减慢了筛查速度 。 如果网络断开两小时 , 一家诊所一天能检查的病人数会减半 。 一个诊所表示:“病人喜欢即时结果 , 但网速慢 , 病人抱怨 。 他们从早上 6 点就在这里等了两个小时 , 我们只能检查 10 个病人 。 ”
这场测试反映了理想的 AI 系统 , 与资源有限的现实环境之间的尖锐矛盾 。
最终 , Google 似乎从中得到了很多经验:“把以人为中心的评估纳入深度学习模型评估 , 并通过临床网络生成的数据来提升模型性能 , 我们可以降低深度学习系统在现实条件下失败的风险 , 并增加对患者和临床医生有意义的改进的可能性 。 ”Google Health 小组现在正在与当地诊所进一步完善工作流程 , 比如 , 训练护士在临界情况下自行判断;调整模型算法以处理不完美的图像 。
Beede 说:“有一个护士自己筛选了 1000 个病人 , 有了这个工具 , 她是不可阻挡的 。 病人并不真的在意识别图像的是机器还是人类 ,他们更关心自己接下来将会经历什么 。 ”
“以人为本”
Google 布局医疗领域早在 2016 年就有所行动 , IBM 也在同年成立了 Watson Health , 与世界各地的不少知名医院进行了合作 。 在 2017 年 IBM 研究院还发布研究成果 , 称在视杯及视盘的检测上 , 机器能达到 95% 的准确度 。 但从发布结果到现在 , 该系统几乎没有重大临床使用进展 。
■Google的AI诊断在临床受挫,同行:在实验室达到准确度只是第一步
本文插图
AI 医学影像是目前人工智能 + 医疗领域较为热门的行业之一 , 据 Global Market Insight 的数据 , 2024 年 , AI 医学影像将达到 25 亿美元规模 , 占整个 AI 医疗市场规模的 25% 。
“利用成像数据进行诊断方面 , 深度学习网络一直优于专业的医生 。 尤其是视网膜图像 , 相比于皮肤或者病理成像 , 它的变异性更小、数据更好 , 深度学习系统的表现也更好 。 这就是为什么 Google 和 IBM 等大公司都决定专注这一领域的原因 , ”Alex Zhavoronkov 博士说 , 他是 AI 药物发现公司 Insilico Medicine 的首席执行官 , “但在临床中 , 系统的限制变得明显 。 现实中的数据质量和用于训练的质量相差很大 , 导致影响性能 。 ”
他认为 , 这项研究只是强调了 AI 工具在大规模应用部署中所需要克服的一个小挑战 。
加拿大滑铁卢大学的 Hamid Tizosh 也从事 AI 影像诊断工作 , 他认为 Google 的研究是至关重要的 , 这是一个及时的提醒:在实验室确保准确性只是第一步 。
早在上个世纪 , 《黑客帝国》就为我们描述了一个人机共生的未来 。 而现在人们讨论的“人机共生” , 更多的是剥离了《黑客帝国》的反乌托邦主义色彩 , 人机各有所长 , 互为补充 , 人类投身于更具价值的工作 , 同时将大量重复的工作交给 AI 。 对于医疗行业而言 , 人与科技之间的关系或许也应如此 。 借用麻省理工学院 AgeLab 的 Bobbie Seppelt 博士评论自动驾驶的一个观点 , “最理想的情境是人与科技共同找出最优的解决方案 , 而不是由任何一方单独完成 。 ”


推荐阅读