CSDN|可以“作为医生”的 GPT-3,究竟是炒作还是名副其实?( 二 )
本文插图
与上述管理任务类似 , GPT-3可以帮助护士或患者从长篇大论中快速找到某条信息 , 比如找到特定检查项目的保险条例 。 但在如下示例中 , 我们为该模型呈上了长达4页的保险条款列表 , 其中X射线检查需要自付10美元 , MRI检查需要自付20美元 。 我们提出了两个问题 , GPT-3可以准确地告知患者X射线检查的价格 , 但未能汇总出多项检查的总金额 。 可见GPT-3缺乏基本的推理能力 。
本文插图
当你坐在客厅的沙发上 , 放松休息并与GPT-3交谈时 , 它会倾听患者的问题 , 甚至提出一些可行的建议 。 这可能是GPT-3在医疗保健中最出色的用例之一 。 而实际上 , 1966年的Eliza算法仅通过模式匹配就实现了像人类一样的行为 , 所以GPT-3的成果也并不足为奇 。
GPT-3与Eliza的关键区别在于 , Eliza这类基于规则的系统能够完全控制计算机的响应 。 换句话说 , 我们确信这类系统不会给出任何可能对患者有害的说法 。
然而 , 不幸的是与Eliza相反 , 在如下示例中 , GPT-3却建议患者自杀……
本文插图
此外 , 该模型还可能提出意想不到的答案 , 比如它会建议患者多多回收电子产品 , 以缓解压力 , 虽然理由比较牵强 , 但也非常有道理!
本文插图
医疗文件 GPT-3在总结和简化文字方面的表现非常出色 , 这非常有利于帮助患者理解满篇专业术语的医学报告 , 或是帮助医生快速了解患者悠久的病史 。 不过 , GPT-3还不能完全胜任这项工作(至少目前还不行) 。 我们的测试表明 , GPT-3得出的结果过于简单 , 难以建立因果关系 , 而且还缺乏基本的演绎推理 。
医疗问答:不及Google 在寻找特定的科学信息、药物剂量或处方支持时 , 我们的实验表明 , GPT-3不够可靠 , 不足以作为医生可信赖的支持工具使用 。 因为这存在一个严重的问题:GPT-3经常会给出内容错误但语法正确的答案 , 而且不会提供任何文献引用供医生核对 。 在急诊科忙碌的医生看到这般语法合理的语句时 , 很容易错误地将其当作有效的医学陈述 。 例如 , 下面的第一个答案是正确的 , 但第二个答案不正确 。
本文插图
诊断:风险自负 诊断是一个更为复杂的问答任务:输入症状 , 然后获得有可能解释这些症状的潜在条件 。 最新的症状检查系统(Babylon、Ada、KHealth等)虽然不够完善 , 但完胜GPT-3 , 因为它们都针对医疗诊断经过了精心优化 。 这些系统的优势在于 , 它们可以输出不同的诊断结果以及相应的概率 , 对于医生来说这是一种置信度的测量 。 而如下GPT-3得出的第一个诊断结果忽略了这个有发烧症状的小女孩可能患有筛窦炎 , 而且还莫名地提到了“皮疹” 。
本文插图
在另一项测试中 , GPT-3忽略了肺栓塞 。 幸运的是 , 没有人因此死亡!
本文插图
内幕揭秘 正如其他人所观察到的那样 , GPT-3输出的质量很大程度上取决于其使用的种子词汇 , 以两种不同方式提出同一个问题也可能得到差异非常大的两个答案 。 此外 , 该模型的各种参数(例如温度参数和top P参数)也起着重要作用 。 温度参数和top P参数控制着该引擎所呈现答案的风险和创造力 。
推荐阅读
- 中介网|一个网站可以有多个域名吗
- 科学|3亿年前的文明地图,中国一直可以走到澳洲,世界是一片大陆
- 英特尔|非K第十代酷睿最佳搭档 中端主板也可以很全面
- 品 玩|联想刘军:我相信服务业务今年可以实现10亿美金营收目标
- 飞行模式|充电时打开飞行模式真能保护手机吗?
- 奇与奇视觉设计|亚马逊产品拍摄精修,主图设计,一样可以轻松搞定。奇与奇视觉
- 军程科技|无货源商家为何纷纷从淘宝拼多多退出,转战抖音小店?原因曝光!那做电商,晓晓为什么会建议大家做无货源模式呢?无货源模式都在哪些平台
- |QQ和微信哪个用的人多?差距大吗?最新数据来了
- iQOO手机|网友买iphone12手机,算算可以买好几个销量销售双冠手机
- |不升级5G套餐也可以用5G网络 哪种方案更省钱?
