■Google的AI诊断在临床受挫,同行:在实验室达到准确度只是第一步
近日 , Google 发表的令人有些挫败感的研究成果 , 其 AI 诊断系统据称在实验室里能达到 “专家水准” , 但在临床中护士甚至不推荐患者使用 AI 系统 。 此种落差 , 又把人们的视线拉回了 AI 的老问题 , “人工智能” 为何到最后还不如人工?
Google 通过研究获得的经验是 , 把 “以人为中心” 的评估纳入模型 。 而事实上 , 早在 2018 年 , 斯坦福大学计算机教授、Google 云首席科学家李飞飞就曾经在《纽约时报》发表过一篇文章 , 认为 “以人为本” 的 AI 才能使人工智能在未来发挥积极作用 。
本文插图
图 | 护士操作眼底照相机 , 给病人的视网膜拍照(来源:论文)
实验室环境下准确率超过 90%
泰国是 Google 选定的测试地区 。 该国卫生部希望在一年时间内完成对该国 60% 的糖尿病人进行糖尿病性视网膜病变(DR)筛查的任务 , 这意味着 200 名视网膜专家要对 450 万名患者进行诊断 , 如果不能及早完成筛查 , DR 可能会导致失明 。
泰国卫生部传统的方法是 , 护士在做检查时为患者的眼睛拍照 , 通过电子邮件或者光盘送到其他地方的专家手里进行筛查 , 整个过程可能需要长达十周的时间 。 不过护士通常会通过初步判断 , 通知有明显的异常的患者转诊眼科医生 。 护士的初步判断一般是根据轻度、中度、严重非增殖期和增殖期四个程度 , 以及糖尿病性黄斑水肿(DME)的情况 , 给患者复查建议或者要求转诊 。
针对如此典型的 “问诊难” 问题 , Google 希望通过自己的 AI 诊断系统解决 。
Google 研究人员此前建了一个有 12.8 万幅图片的数据集 , 每张图片记录了 3-7 名眼科医生的评估结果 , 然后训练算法 。 该系统已经拿到了 CE 认证 , 但仍在等待 FDA 批准 。 这套系统通过扫描眼睛 , 利用图像分析来显示是否有血管堵塞或者渗漏 , 以此识别 DR 的症状 , 据称准确率超过 90% , Google Health 研究小组称之为“人类专家水平” , 原则上 , 十分钟内就能出结果 。
理想状态下 , 这套系统理论上能省去护士判断和分级的步骤 , 并且不用再把图像发给眼科专家 。
Google Health 的用户体验研究员 Emma Beede 说:“我们必须在 AI 工具被广泛应用之前 , 了解它是如何在环境中为人们工作的 , 尤其是在医疗领域 。 ”Beede 和她的同事在泰国的十一家诊所配备了他们的深度学习 AI 诊断系统 , 在几个月的时间里 , 他们观察护士的使用情况 , 并采访他们的使用体验 。
【■Google的AI诊断在临床受挫,同行:在实验室达到准确度只是第一步】
本文插图
图 | 部署深度学习系统之前和之后的眼病筛选过程(来源:该论文)
算法拒绝了 21% 的图像
要想使图像更利于人或者机器进行分级 , 就必须要捕获清晰的视网膜区域 , 也就是说相机的光线需要进入到眼睛的后部 , 这就需要患者的瞳孔放大 , 或者是在黑暗的环境中 , 或者使用瞳孔扩张滴液 。 但 Google 测试的十一家诊所中 , 不同诊所的检查环境大不相同 , 只有两家诊所有专门的暗黑拍片室 , 一些诊所没有扩张滴液 , 其他诊所都是在办公室进行拍摄 , 即使相机上方有荧光灯 , 也无法拍出满足系统要求的图像 。
根据现有的 AI 法规 , CE 和 FDA 的认证主要针对准确性而不是诊断或者治疗效果 。 为了保证系统的准确性 , Google 研究人员对图像质量有严格的阈值 , 未满足要求的图像会被拒绝识别 。 这就造成算法拒绝了 21% 的图像 。 这种情况下 , 系统会通知护士 , 护士要告知患者转诊 。 其中一个诊所的护士说:“系统给出了确定的结果 , 但也有一定的局限性 。 有些图像比较模糊 , 我还能看清 , 但是系统看不清 。 ”
推荐阅读
- 右手网|Android 手机将通过 Google Clock 更新获得 “就寝模式” 等新功能
- google|shopify卖家快上车!google送免费广告位了
- 飞象网|Google为Pixel机型推送6月安全补丁
- 肝癌国产创新药“多纳非尼”治疗晚期肝癌临床研究在ASCO公布试验结果
- 三弟看月球|Google AR新工具「Solar」! 开启2米虚拟社交距离助防疫
- cnBeta|Gmail用户未来可直接在收件箱中拨打Google Voice电话
- 搜狐新闻|iPhone SE(第二代)的强劲对手Google“Pixel 4a”将发布
- 连花清瘟钟南山李兰娟张伯礼最新论文:披露连花清瘟新冠临床试验数据
- 疫苗中国新冠病毒疫苗1期临床试验取得积极成果
- 患者AI算法可快速诊断新冠肺炎患者
