AI大战10位华西医院医生

今天小编分享的科技经验：AI大战10位华西医院医生，欢迎阅读。

经济观察网记者瞿依贤 " 您好，麻烦您告诉我您的年龄及性别，以及哪里不舒服？" 当真人医生和 AI 医生以同样的问题开始问诊，最后的诊疗结果、治疗方案会一致吗？

6 月 30 日，国内首次 AI 医生与真人医生一致性评测完成。这场 PK 发生在成都高新海尔森医院，AI 医生为互联网医疗公司医联推出的 MedGPT，真人医生是四川大学华西医院的 10 位医生，包括副主任医师和主治医师，涉及科室包括骨科、内分泌代谢科、心内科、肾内科、老年呼吸科、消化科和泌尿外科。参与这场义诊评测的患者共 120 多位。

问诊过程中，真人医生和 AI 医生都没有与患者直接接触，患者与医生助理接触，医生助理通过电腦输入文字分别与真人医生和 AI 医生联系，真人医生和 AI 医生的问题也经由医生助理传递给患者。

引导患者说出完整病情、收集足够多决策因子后，真人医生与 AI 医生为患者开具检查单或诊断，患者直接在成都高新海尔森医院完成检查；获得检查结果后，患者再复诊，并由 AI 医生及真人医生提供临床诊断及治疗方案。

从开始问诊到评审结果，整个过程在网上直播。

8 个小时的问诊结束后，形成有效病例 91 份，由北大人民医院、中日友好医院、阜外医院和友谊医院的 7 位专家教授进行审核。7 位专家教授的专业与前述科室对应，评价维度包括 7 个——问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与互動。

最终，真人医生综合得分为 7.5 分，AI 医生综合得分为 7.2 分。AI 医生与真人医生在比分结果上的一致性为 96%。5 位专家给真人医生的打分都高于 AI 医生，只有 2 位专家给 AI 医生的打分高于真人医生，一位差 1.6，一位差 0.1。

在专家评审环节，北大人民医院肾内科主任医师蔡美顺表示，AI 询问比较全面，检查也做得比较全面，不太容易漏诊，但存在概念错误，比如 AI 医生在其中一个病例的问诊中说，" 尿微量白蛋白在正常范围内，肾脏的过滤功能是正常的 "，这句话就不准确。

蔡美顺表示，这次一致性测评的样本量还不够丰富，总体来说，" 人工智能对我们的工作有一些帮助 "。

北大人民医院骨科主任医师薛峰对 AI 医生的评价是：总体不错，稍稍有些超出预期。MedGPT 是一项非常有发展前景的技术，应该定位在常见病和基础病的诊断上。

薛峰以 147 号病例举例，这个病例的症状是膝盖痛，AI 医生问诊非常详细，"MedGPT 不嫌累，话多，问题也很多 "，会关注女性患者是否正在备孕、怀孕，而现实临床工作中，骨科医生较少会问这类问题，" 有些细节问题漏掉之后很容易犯一些错误，一些症状漏掉之后也可能漏诊 "。对膝盖痛这种常见疾病，很多时候医生需要做一些科普，告知患者生活中需要注意的事项，AI 医生的详细表达也会给患者更多信息。

薛峰还发现了一个 " 惊喜 "：MedGPT 根据患者脚底板疼痛判断患者有可能出现神经压迫，真人医生却没有想到这一点。

对于 AI 医生的不足，薛峰认为，AI 医生无法查体，但 AI 医生也没有关注查体结果，比如关节的活动度、有无压痛点等等。此外，对检查结果，AI 医生只会读报告，报告怎么写的就会认为是什么样的，但专科医生要自己会看片子，" 片子上的细微改变，报告有时候是体现不出来的 "。

中日友好医院心内科主任医师任景怡举例，对早搏问题，AI 医生还关注了中度贫血，这在临床上可能跟早搏密切相关，但在实际工作中，专科医生比较聚焦自己的专业，可能会忽略相关症状。AI 医生的知识储备比较全面。

多位专家认为，AI 医生虽然问诊详细，但是针对性不够强，系统性和逻辑性也不够强，还有待训练。