ChatGPT进军医疗领域存在致命缺陷
每周有超过2.3亿人向该应用咨询健康相关建议
DeeperDive is a beta AI feature. Refer to full articles for the facts.
本文由AI辅助翻译
OpenAI和Anthropic都宣布了进军医疗领域的宏大计划,分别推出了一款名为ChatGPT Health的面向消费者的工具,以及一个可以帮助临床医生进行诊断和撰写医疗记录的聊天机器人Claude版本。
在这一系列公告中,Google的身影明显缺席。其Gemini聊天机器人是目前最受欢迎、功能最强大的机器人之一,为何不也投身于这个利润丰厚的医疗市场呢?或许是因为Google从过往的经验中得知,这样的努力可能会惨败收场。
健康建议是生成式人工智能最具潜力的应用领域之一。但这些新兴的人工智能公司,或许被自负和炒作蒙蔽了双眼,如果它们不能对其技术臭名昭著的“幻觉”问题更加透明,就可能面临与Google相似的命运。
OpenAI正在逐步推出一项新功能,允许用户查询自己的健康问题。该功能具有独立的记忆系统,并且如果用户选择接入,还可以链接到个人医疗记录或健康应用中的数据。
该公司表示,ChatGPT Health更安全,且“不用于诊断”,但许多人已经用它来判断病情。
该公司称,每周有超过2.3亿人向该应用咨询健康相关建议。它还发布了面向临床医生的ChatGPT for Healthcare版本,目前正在包括Boston Children’s Hospital和Memorial Sloan Kettering Cancer Center在内的几家医院进行试用。
Navigate Asia in
a new global order
Get the insights delivered to your inbox.
在企业销售方面比OpenAI更为成功的Anthropic,也推出了一款针对医生的聊天机器人。它看起来与消费者版的Claude相同,但经过了医学数据库的训练,例如诊断代码和医疗服务提供者信息(以帮助其生成授权文件),以及来自PubMed的学术论文(以帮助引导医生完成潜在的诊断过程)。
该公司让我们看到了这种训练如何能让Claude变得更加准确。Anthropic的首席产品官Mike Krieger在本月早些时候的发布会上表示,当消费者版本的Claude被问及医生用于分类诊断或手术的国际疾病分类第十版(ICD-10)编码时,其回答的正确率为75%。但经过这些编码训练的医生版Claude,准确率高达99.8%。
然而,在进行诊断时的准确率是多少呢?这个数字似乎更为重要。当我向Anthropic询问时,该公司无法给出完整答案。它表示其最强大的推理模型Claude Opus 4.5,在测试医疗计算准确性的MedCalc上实现了92.3%的准确率,在衡量AI是否能在模拟电子健康记录系统中执行临床任务的MedAgentBench上则为61.3%。但这两个数据都不能说明该AI在临床建议方面的可靠性。前者指的是药物剂量和实验室数值的测试;而61.3%这个数据,坦白说,是一个低得令人担忧的分数。
值得称赞的是,根据最近被Meta Platforms收购的人工智能公司Scale汇编的数据,Anthropic的模型比OpenAI或Google的模型更诚实——它们更倾向于承认不确定性,而不是捏造答案。在旧金山举行的JPMorgan Chase医疗健康大会上,Anthropic在发布会上大力宣传了这些数据,但如果医生无法量化诊断工具的实际准确性,这种赞誉听起来将很空洞。
当我向OpenAI询问ChatGPT在健康事实方面的可靠性时,一位女发言人表示,与早期版本相比,其模型在健康场景中的可靠性和准确性都有所提高,但她同样没有提供在提供医疗建议时出现“幻觉”率的具体数字。
长期以来,人工智能公司对其聊天机器人犯错的频率一直保持沉默,部分原因是这样做会凸显出解决这个问题的难度。相反,它们会提供基准测试数据,例如展示其AI模型在医师执照考试中的表现。但是,在可靠性方面更加透明,对于建立临床专业人士和公众的信任至关重要。
Alphabet旗下的Google付出了沉重代价才学到这一点。在2008年至2011年间,它曾试图以“Google Health”为名创建个人健康记录服务,该服务可以将个人来自不同医生和医院的医疗数据整合到一处。
这项努力之所以失败,部分原因是Google在从不兼容的系统中整理健康数据方面面临巨大的技术挑战。但更大的问题是:人们对于将自己的健康记录上传给一家常年为广告目的而大量收集个人信息的公司感到毛骨悚然。
公众的不信任感如此强烈,以至于Google的DeepMind实验室一项旨在提醒医院医生注意急性肾衰竭迹象的大胆尝试,在2018年因被曝出项目期间获取了超过一百万英国患者的记录而被叫停。一年后,《华尔街日报》(Wall Street Journal)又揭露了Google的另一项名为“夜莺计划”(Project Nightingale)的行动,该计划旨在获取数百万美国患者的医疗记录。
这两起事件都被视为丑闻,教训也显而易见:人们认为Google不可信。这使得人工智能公司在医疗领域的命运更加充满风险。Google的麻烦源于公众对它的看法,而非其系统在处理医疗记录时犯了任何错误。如果ChatGPT或Claude在帮助医生做出事关生死的决定时犯错,代价将会更高。
或许是出于天真或狭隘的想法,Anthropic的首席执行官Dario Amodei在上周的医疗业务发布会上恰恰提到了这一点,尽管他的公司并未提供任何数据来解决这个问题。他表示,随着公司进入像医疗这样的新市场,“安全”的定义正在扩展。他补充说:“医疗领域是决不能 让模型胡编乱造的地方。那会很糟糕。” 彭博社
Decoding Asia newsletter: your guide to navigating Asia in a new global order. Sign up here to get Decoding Asia newsletter. Delivered to your inbox. Free.
Share with us your feedback on BT's products and services