一线｜NEJM刊文还原医生与GPT-4对话，暴露医疗AI的优势、局限和风险（文中附实录）

首页 > 前沿 > 文章详情

原创

作者：领医知识岛 2024年03月13日 17:12 3161 阅读

作者｜刘武.HAI

来源｜领医知识岛

AI不是风口，而是真实的现在和可能既惊又喜的未来。AI与医疗等垂直行业的互相结合正悄然前行，只是程度深浅、进度快慢的差别而已。

目前，AI已经在包括医学影像分析、药物检测、高危患者识别、医疗记录编码等医学场景取得了多方面的发展。当下的AI虽然并不完美，但是它正在以惊人的速度迅速迭代。

昨天领医知识岛精挑细选了大量的资讯、报告、论文，最终我们还是决定给大家分享一篇关于GPT-4在医疗场景应用的期刊特别报告——《Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine》（《GPT-4用作医学AI聊天机器人的优势、局限和风险》，“领医知识岛”公众号后台回复关键词“Peter”获取pdf版原文）。

尽管这是一年前发表在《NEJM医疗前沿》（与《新英格兰医学杂志》同属于NEJM集团）上的一篇文章，但是今天读来仍然显得并不过时。文章前两位作者是微软研究院的Peter Lee 和 Sebastien Bubeck两位博士。这两位大咖近年来在AI领域较为活跃，偶有刷屏级文章问世。

-1-

表现堪称惊艳，“幻觉”正在被克服

AI聊天机器人对于人类的提问，已经能做到真正的“秒回”。作者特意列出了一些与GPT-4人机对话的示例。

从这些会话示例可以看出，一般情况下GPT-4能够根据互联网上有依据的信息，以及通过逻辑或数学计算较为流畅地回答问题，并且还能提供通常有依据的建议。

然而，当人类给出的提问并无单一已知“正确”回应时，GPT-4也会产生“幻觉”编造答案。并且，它有时是在分析用户可能的情感需求之后给出回应，主打的就是提供情绪价值。

这类“幻觉”在医疗场景中显然尤其危险，因此检查或核实AI输出的信息就显得尤为必要。庆幸的是，AI在不断地迭代，不仅能够自查自纠，而且“幻觉”也正在被克服。

作者文章中列出的这些示例，都是在2022年12月使用GPT-4的预发布版本运行所获得的结果。在2023年3月向公众发布的版本上运行时，GPT-4已不再表现出之前的“幻觉”。

目前的AI对提示词的形式和措辞仍然较为敏感。而“提示工程”（prompt engineering）既是一门艺术，也是一门科学。尽管未来的AI系统可能会对提示中使用的精确语言不那么敏感，但是就目前而言仍然需要对“提示词”进行仔细设计和测试，才能产生最佳结果。

有一点值得注意的是，尽管目前市场上的一些AI在医学应用中表现出了不同程度的能力，但是包括GPT-4在内的这些AI大语言模型并不是为诸如解读医疗影像、分析医疗记录等特定任务而开发，却具备通用认知能力。

文章称，AI完全采用互联网上的公开数据在进行训练，比如公开的医学文字内容、研究论文、医疗系统网站，以及医学信息播客和视频。训练数据中不包含任何专用内部数据或专用网络上的医学信息。（编者注：事实并非完全如此。关注公众号在后台回复“证据”可获得某互联网大厂共享电子健康记录数据与外部机构合作开发AI的案例信息。）

目前，各大著名的AI大模型几乎都在开展医学应用方面的研究。微软和OpenAI就一直在开发一系列越来越强大的AI系统，包括在医疗领域和医学应用程序中的可能用途，比如AI在医学和医疗文书工作、数据互操作性、诊断、研究和医学教育等方面的应用。

-2-

三个医疗场景的AI应用示例惊喜参半

由于医学通常会通过案例来教授，所以作者在文章中也提供了三个基于具体场景的GPT-4潜在医学用途示例，以及通过补充附录的形式给出了更多示例。

文章中的三个示例的应用场景分别是：撰写医疗记录、解答美国医师执照考试题目、医师向同事寻求建议时可能提出的“非正式医疗咨询”问题解答。

在撰写医疗记录的场景中，GPT-4根据医患对话文本撰写出了医疗记录，并且它也可以对人类或其它AI系统撰写的医疗记录进行检查确认。GPT-4发现了几处错误，并完成了更正。

在拟定的部署方案中，患者签署知情同意书之后，GPT-4可听取诊疗过程中的医患对话获得医疗记录文本。诊疗完成后，软件应医师要求生成医疗记录。GPT-4不仅能够生成多种常用格式的医疗记录，还能就诊疗问题提取预先核准信息生成符合标准的实验室检查单、处方、撰写就诊总结以及向临床医师和患者提供重要反馈。

在解答美国医师执照考试题目的场景中，尽管GPT-4只经过互联网上公开信息的训练，但是答案正确率达到90%以上。GPT-4解释了答案背后的推理过程、参考了已知医学事实、指出了因果关系、排除了其它答案，并为其“观点”提供了令人信服的依据。

在提出典型的“非正式医疗咨询”问题场景下，向GPT-4提供患者初始临床表现或实验室检查结果后，它通常可以做出有用的回应，也可能帮助医务人员解决关注的问题。GPT-4可阅读医学研究资料，并参与相关讨论以及提出可能的后续研究问题。这使得GPT-4不仅可用于医疗咨询、临床诊断，还可用于医学教育和科研。

当然，作者也发现在上述场景下，虽然GPT-4非常强大，但是谈不上完美。它存在重要局限性，甚至存在出错的情况。

比如在撰写医疗记录场景的示例中，GPT-4写出患者体质指数（BMI）为14.8，事实上医患交流原始文本中并无相关信息，也就是说它出现了“幻觉”。

好在，在另一个会话中，作者要求GPT-4阅读文本和医疗记录，它发现了关于BMI的“幻觉”。在“重读”后输出的信息中，它还指出医师并未提及营养不良或心脏并发症的体征。虽然临床医师观察到了这些体征，但在与患者的对话中并没有关于这些问题的内容。这些信息对建立诊断基础很重要，重读文本后解决了这一问题。最后，AI系统提出需要更详细说明安排的血液检查，以及安排这些检查的依据。

有鉴于此，作者指出在未来部署的GPT-4应用中，应将处理幻觉、遗漏和错误的这一机制和其它机制包含在其中。

-3-

若干问题需要被讨论

值得留意的是，作者还提醒这些示例都是在2022年12月使用GPT-4的预发布版本运行的，“我们注意到GPT-4很可能处于一种几乎不断变化状态。我们预计，仍在开发中的GPT-4将继续演进，其整体性能有可能改进也有可能退化。”

文章预测，医疗专业人员和患者将越来越频繁地使用生成式AI。“也许最重要的一点是，GPT-4本身并不是终点，而是通往新前景和新风险的大门。我们推测，GPT-4之后很快将出现更强大、能力更高的AI系统，即一系列越来越强大、越来越智能的机器。

”这些机器是工具，就像所有工具一样，它们可以用来做好事，但也有可能造成伤害。如果小心谨慎使用，这些不断发展的工具有可能帮助医护人员提供可能的最佳医疗。“

作者在文章结尾部分，还提出了一系列的问题，如山谷回声：

“我们应如何评估像GPT-4这类工具的通用智力？用户可以在多大程度上“信任”GPT-4？读者是否需要花时间确认其所写内容的真实性？除校对外，还需要做多少事实核查工作？GPT-4可以在多大程度上协助完成这项任务？”

诸如此类的问题，无疑将成为医学界和非医学界争论的话题。（完）

（重要提醒：本文仅作为知识分享、信息交流所用，欲进一步了解详情可访问链接https://www.nejm.org/doi/10.1056/NEJMsr2214184，或后台回复关键词“Peter”获取pdf版原文。同时，欢迎正在关注或进行“医疗&AI“开发尝试的医界朋友们添加下方二维码进入专属社群，我们可以更高频、更深度地聊起来。）

关键词:

医疗大模型

微信扫一扫

点赞收藏