张田勘:AI可以诊治病人了吗?

AMIE进入临床诊治疾病还有很长的路要走,而且进入临床也只能是真人医生的助手,并不能单独诊治疾病。一个最根本的问题是,即便它在某些方面比真人医生更强大,但它和其他AI软件的出错率也比较高。

近日,谷歌深度思考(DeepMind)发表论文称,他们研发的全新诊断对话式人工智能(AI)——AMIE在测试中击败医生,通过了图灵测试。

《自然》杂志前不久发布的2024年可能发生的10大科学进展中,人工智能占据榜首。

话音未落,就传来了AI在医疗领域的重大突破。AMIE在测试中击败医生并通过了图灵测试,是否意味着AI已经能进入临床并替代真人医生呢?

当然不可能,因为,AI医生迄今并没有处方权,人们还不会轻易地将诊疗权交给AI。

要了解情况,还要从此次AI的突破来看。

研究人员基于临床会诊和沟通技巧,构建了一个试验性评估临床诊断的标准,其中涉及病史采集、诊断准确性、临床管理、临床沟通技巧、关系培养和移情等标准。之后,研究人员创建了基于大语言模型(LLM)的对话式诊断研究AI系统,即AMIE,并以真实世界的大数据训练AMIE。这些数据包括医学推理、医学总结和真实世界的临床对话。

最后,研究人员设计了一项随机、双盲交叉研究,让经过验证的患者与经过认证的初级保健医生(PCP),和AMIE通过文字聊天的方式进行互动,也即以客观结构化临床考试(OSCE)的形式,设置咨询(诊断)场景。OSCE是真实世界中常用的实用评估方法,以标准化和客观的方式考察临床医生的技能和能力。

在一项随机、双盲交叉的研究中,研究人员采用OSCE来评估20名初级保健医生、专科主治医生与AMIE的诊断,病人由专业演员模拟真实的患者。研究包括来自加拿大、英国和印度OSCE提供者的149个病例场景,涉及各种专科和疾病。

结果显示,AMIE在模拟诊断对话中的表现,至少与初级保健医生不相上下。而且,从专科医生的角度来看,AMIE的诊断准确性更高,在32个指标中的28个指标上表现更优;从患者的角度来看,在26个指标中的24个指标上表现更优。此外,AMIE在研究人员设定的评估中,在各个指标上都超越了初级保健医生。然而,这个AI医生只是在诊断呼吸系统和心血管疾病两类疾病中战胜医生,并没有在所有疾病的诊断中比初级保健医生更准确,因此不能推论到所有疾病防治领域。

另一方面,在试验中,AMIE通过了图灵试验,并表现出某种同理心,但这也并不意味着AI医生已经会思考,甚至具有了与人相似的意识。问题在于,图灵试验的标准已经太古老。在这个测试下,测试者向被测试者随意提问,进行多次测试后,如果有超过30%的测试者不能确定被测试者是人还是机器,这台机器就通过了测试。30%的比例太少。再说,图灵试验混淆了“骗人”和“像人一样思考”的结果,因此,通过了图灵测试并不意味着AMIE就能像真人医生一样思考、分析和判断,并进行正确的诊断。

应当承认的是,AMIE的确强大,比2011年国际商业机器公司(IBM)创造的沃森医生更胜一筹。

沃森医生算是最初的AI医生,诊断疾病的准确率达到73%,而且是对各类疾病的诊断。沃森医生贮存了数百万文档资料,包括字典、百科全书、医疗档案、新闻、文学以及其他可以建立知识库的参考材料,1秒可阅读100万本书,在获得一个寻问后,会进行一系列的计算,包括语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合,最后给出答案。

AMIE则有很大的改进,它除了接受大数据训练外,还能从真实的医疗条件和场景中,获取信息并学习改进。研究人员设计了一个基于自演的模拟学习环境,环境具有自动反馈机制,用于虚拟医疗环境中的诊断性医疗对话,因而让AMIE能扩展在多种医疗条件和环境中学习知识的能力。

同时,研究人员还利用医院真实诊治疾病环境不断变化的模拟对话集,对AMIE进行反复微调,让AMIE进行两种自演循环。一是内部自演循环,利用上下文中对话者的反馈来完善学习;二是外部自演循环,即完善的模拟对话集被纳入后续的微调迭代中。

由此产生的新版AMIE可以再次参与内循环,形成良性的持续学习循环。

AMIE还被设计了推理时间链策略,使AMIE能够根据当前对话的情况,逐步完善自己的回答,从而得出最能体现当下具体情况的诊断。因此,在诊断呼吸系统和心血管疾病方面的准确性更高。

即便如此,AMIE进入临床诊治疾病还有很长的路要走,而且进入临床也只能是真人医生的助手,并不能单独诊治疾病。一个最根本的问题是,即便它在某些方面比真人医生更强大,但它和其他AI软件的出错率也比较高。

同样是刚刚发表在《科学》杂志上的一项关于AI帮助医生诊治精神分裂症的结果显示,人工智能模型可以高精度地预测接受训练的样本中的病人的治疗结果,但当应用于初始样本的子集或不同的数据集时,它们的性能下降到略好于偶然性。

也就是说,使用不同的AI医生,具有很大的局限性。因此,它们只能作为真人医生的助手介入医疗,而不能单独诊治疾病。

作者是北京学者