CSDN|可以“作为医生”的 GPT-3，究竟是炒作还是名副其实？( 二 )

本文插图

与上述管理任务类似， GPT-3可以帮助护士或患者从长篇大论中快速找到某条信息，比如找到特定检查项目的保险条例。但在如下示例中，我们为该模型呈上了长达4页的保险条款列表，其中X射线检查需要自付10美元， MRI检查需要自付20美元。我们提出了两个问题， GPT-3可以准确地告知患者X射线检查的价格，但未能汇总出多项检查的总金额。可见GPT-3缺乏基本的推理能力。

本文插图

当你坐在客厅的沙发上，放松休息并与GPT-3交谈时，它会倾听患者的问题，甚至提出一些可行的建议。这可能是GPT-3在医疗保健中最出色的用例之一。而实际上， 1966年的Eliza算法仅通过模式匹配就实现了像人类一样的行为，所以GPT-3的成果也并不足为奇。
GPT-3与Eliza的关键区别在于， Eliza这类基于规则的系统能够完全控制计算机的响应。换句话说，我们确信这类系统不会给出任何可能对患者有害的说法。
然而，不幸的是与Eliza相反，在如下示例中， GPT-3却建议患者自杀……

本文插图
此外，该模型还可能提出意想不到的答案，比如它会建议患者多多回收电子产品，以缓解压力，虽然理由比较牵强，但也非常有道理！

本文插图

医疗文件 GPT-3在总结和简化文字方面的表现非常出色，这非常有利于帮助患者理解满篇专业术语的医学报告，或是帮助医生快速了解患者悠久的病史。不过， GPT-3还不能完全胜任这项工作（至少目前还不行）。我们的测试表明， GPT-3得出的结果过于简单，难以建立因果关系，而且还缺乏基本的演绎推理。
医疗问答：不及Google 在寻找特定的科学信息、药物剂量或处方支持时，我们的实验表明， GPT-3不够可靠，不足以作为医生可信赖的支持工具使用。因为这存在一个严重的问题：GPT-3经常会给出内容错误但语法正确的答案，而且不会提供任何文献引用供医生核对。在急诊科忙碌的医生看到这般语法合理的语句时，很容易错误地将其当作有效的医学陈述。例如，下面的第一个答案是正确的，但第二个答案不正确。

本文插图

诊断：风险自负诊断是一个更为复杂的问答任务：输入症状，然后获得有可能解释这些症状的潜在条件。最新的症状检查系统（Babylon、Ada、KHealth等）虽然不够完善，但完胜GPT-3 ，因为它们都针对医疗诊断经过了精心优化。这些系统的优势在于，它们可以输出不同的诊断结果以及相应的概率，对于医生来说这是一种置信度的测量。而如下GPT-3得出的第一个诊断结果忽略了这个有发烧症状的小女孩可能患有筛窦炎，而且还莫名地提到了“皮疹” 。

本文插图
在另一项测试中， GPT-3忽略了肺栓塞。幸运的是，没有人因此死亡！

本文插图

内幕揭秘正如其他人所观察到的那样， GPT-3输出的质量很大程度上取决于其使用的种子词汇，以两种不同方式提出同一个问题也可能得到差异非常大的两个答案。此外，该模型的各种参数（例如温度参数和top P参数）也起着重要作用。温度参数和top P参数控制着该引擎所呈现答案的风险和创造力。

CSDN|可以“作为医生”的 GPT-3，究竟是炒作还是名副其实？( 二 )

推荐阅读

澎湃新闻|大理：已没收的苍海高尔夫55栋违建别墅无法改正，决定拆除

大豫骨医■骨医风采】体温登记处小岗位大责任，【

『智通财经』中集集团(02039)审议通过中集产城发展控股子公司向关联方提供财务资助议案

太震撼！“草根摄影师”镜头下的四十年乡土巨变

央视网|国际锐评丨逆流而动的蓬佩奥正严重威胁全世界

天价老普洱惊现河南郑州

齐火狐说体育|原以为他是恒大后防线之光，热身赛却意外状态低迷，空欢喜一场

「挖贝网」低端产品出货减少，晶瑞股份2019年净利3132万下滑38%

肠炎灵的功效作用有哪些

经常腹泻要小心！有肠梗阻、瘘管、癌变风险

猫姐衣有道|哪个牌子的化妆品好用_2019年化妆品十大品牌排行榜

女人衣服为啥那么难买

胎盘一级要多久变二级

儿童饮食|隔三差五给孩子做的菜，简答易学，补钙补脑营养高，看了直流口水

|领导真正的赏识与提拔，多数与努力无关

东方网|对话500强|松下本间哲朗：持续深化健康养老战略

蜡油滴在衣服上怎么洗衣服上沾了蜡油怎么去除

倚天屠龙记|新《倚天屠龙记》已杀青，定妆照很魔幻，勿用“尊重原著”为噱头

皓衣行@《皓衣行》路透图引粉丝质疑导演能力，狂发27万条内容呼吁换团队

济南|济南市就业中心：严格落实“三不停”全力保障“三不断”“疫”时就业服务“不打烊”