今天小编分享的科技经验:AI大战10位华西医院医生,欢迎阅读。
经济观察网 记者 瞿依贤 " 您好,麻烦您告诉我您的年龄及性别,以及哪里不舒服?" 当真人医生和 AI 医生以同样的问题开始问诊,最后的诊疗结果、治疗方案会一致吗?
6 月 30 日,国内首次 AI 医生与真人医生一致性评测完成。这场 PK 发生在成都高新海尔森医院,AI 医生为互联网医疗公司医联推出的 MedGPT,真人医生是四川大学华西医院的 10 位医生,包括副主任医师和主治医师,涉及科室包括骨科、内分泌代谢科、心内科、肾内科、老年呼吸科、消化科和泌尿外科。参与这场义诊评测的患者共 120 多位。
问诊过程中,真人医生和 AI 医生都没有与患者直接接触,患者与医生助理接触,医生助理通过电腦输入文字分别与真人医生和 AI 医生联系,真人医生和 AI 医生的问题也经由医生助理传递给患者。
引导患者说出完整病情、收集足够多决策因子后,真人医生与 AI 医生为患者开具检查单或诊断,患者直接在成都高新海尔森医院完成检查;获得检查结果后,患者再复诊,并由 AI 医生及真人医生提供临床诊断及治疗方案。
从开始问诊到评审结果,整个过程在网上直播。
8 个小时的问诊结束后,形成有效病例 91 份,由北大人民医院、中日友好医院、阜外医院和友谊医院的 7 位专家教授进行审核。7 位专家教授的专业与前述科室对应,评价维度包括 7 个——问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与互動。
最终,真人医生综合得分为 7.5 分,AI 医生综合得分为 7.2 分。AI 医生与真人医生在比分结果上的一致性为 96%。5 位专家给真人医生的打分都高于 AI 医生,只有 2 位专家给 AI 医生的打分高于真人医生,一位差 1.6,一位差 0.1。
在专家评审环节,北大人民医院肾内科主任医师蔡美顺表示,AI 询问比较全面,检查也做得比较全面,不太容易漏诊,但存在概念错误,比如 AI 医生在其中一个病例的问诊中说," 尿微量白蛋白在正常范围内,肾脏的过滤功能是正常的 ",这句话就不准确。
蔡美顺表示,这次一致性测评的样本量还不够丰富,总体来说," 人工智能对我们的工作有一些帮助 "。
北大人民医院骨科主任医师薛峰对 AI 医生的评价是:总体不错,稍稍有些超出预期。MedGPT 是一项非常有发展前景的技术,应该定位在常见病和基础病的诊断上。
薛峰以 147 号病例举例,这个病例的症状是膝盖痛,AI 医生问诊非常详细,"MedGPT 不嫌累,话多,问题也很多 ",会关注女性患者是否正在备孕、怀孕,而现实临床工作中,骨科医生较少会问这类问题," 有些细节问题漏掉之后很容易犯一些错误,一些症状漏掉之后也可能漏诊 "。对膝盖痛这种常见疾病,很多时候医生需要做一些科普,告知患者生活中需要注意的事项,AI 医生的详细表达也会给患者更多信息。
薛峰还发现了一个 " 惊喜 ":MedGPT 根据患者脚底板疼痛判断患者有可能出现神经压迫,真人医生却没有想到这一点。
对于 AI 医生的不足,薛峰认为,AI 医生无法查体,但 AI 医生也没有关注查体结果,比如关节的活动度、有无压痛点等等。此外,对检查结果,AI 医生只会读报告,报告怎么写的就会认为是什么样的,但专科医生要自己会看片子," 片子上的细微改变,报告有时候是体现不出来的 "。
中日友好医院心内科主任医师任景怡举例,对早搏问题,AI 医生还关注了中度贫血,这在临床上可能跟早搏密切相关,但在实际工作中,专科医生比较聚焦自己的专业,可能会忽略相关症状。AI 医生的知识储备比较全面。
多位专家认为,AI 医生虽然问诊详细,但是针对性不够强,系统性和逻辑性也不够强,还有待训练。