AI大戰10位華西醫院醫生

今天小編分享的科技經驗：AI大戰10位華西醫院醫生，歡迎閱讀。

經濟觀察網記者瞿依賢 " 您好，麻煩您告訴我您的年齡及性别，以及哪裡不舒服？" 當真人醫生和 AI 醫生以同樣的問題開始問診，最後的診療結果、治療方案會一致嗎？

6 月 30 日，國内首次 AI 醫生與真人醫生一致性評測完成。這場 PK 發生在成都高新海爾森醫院，AI 醫生為互聯網醫療公司醫聯推出的 MedGPT，真人醫生是四川大學華西醫院的 10 位醫生，包括副主任醫師和主治醫師，涉及科室包括骨科、内分泌代謝科、心内科、腎内科、老年呼吸科、消化科和泌尿外科。參與這場義診評測的患者共 120 多位。

問診過程中，真人醫生和 AI 醫生都沒有與患者直接接觸，患者與醫生助理接觸，醫生助理通過電腦輸入文字分别與真人醫生和 AI 醫生聯系，真人醫生和 AI 醫生的問題也經由醫生助理傳遞給患者。

引導患者說出完整病情、收集足夠多決策因子後，真人醫生與 AI 醫生為患者開具檢查單或診斷，患者直接在成都高新海爾森醫院完成檢查；獲得檢查結果後，患者再復診，并由 AI 醫生及真人醫生提供臨床診斷及治療方案。

從開始問診到評審結果，整個過程在網上直播。

8 個小時的問診結束後，形成有效病例 91 份，由北大人民醫院、中日友好醫院、阜外醫院和友誼醫院的 7 位專家教授進行審核。7 位專家教授的專業與前述科室對應，評價維度包括 7 個——問診準确性、診斷準确性、治療建議準确性、輔助檢查方案準确性、數據分析準确性、提供可解釋信息、自然語言問診與互動。

最終，真人醫生綜合得分為 7.5 分，AI 醫生綜合得分為 7.2 分。AI 醫生與真人醫生在比分結果上的一致性為 96%。5 位專家給真人醫生的打分都高于 AI 醫生，只有 2 位專家給 AI 醫生的打分高于真人醫生，一位差 1.6，一位差 0.1。

在專家評審環節，北大人民醫院腎内科主任醫師蔡美順表示，AI 詢問比較全面，檢查也做得比較全面，不太容易漏診，但存在概念錯誤，比如 AI 醫生在其中一個病例的問診中說，" 尿微量白蛋白在正常範圍内，腎髒的過濾功能是正常的 "，這句話就不準确。

蔡美順表示，這次一致性測評的樣本量還不夠豐富，總體來說，" 人工智能對我們的工作有一些幫助 "。

北大人民醫院骨科主任醫師薛峰對 AI 醫生的評價是：總體不錯，稍稍有些超出預期。MedGPT 是一項非常有發展前景的技術，應該定位在常見病和基礎病的診斷上。

薛峰以 147 号病例舉例，這個病例的症狀是膝蓋痛，AI 醫生問診非常詳細，"MedGPT 不嫌累，話多，問題也很多 "，會關注女性患者是否正在備孕、懷孕，而現實臨床工作中，骨科醫生較少會問這類問題，" 有些細節問題漏掉之後很容易犯一些錯誤，一些症狀漏掉之後也可能漏診 "。對膝蓋痛這種常見疾病，很多時候醫生需要做一些科普，告知患者生活中需要注意的事項，AI 醫生的詳細表達也會給患者更多信息。

薛峰還發現了一個 " 驚喜 "：MedGPT 根據患者腳底板疼痛判斷患者有可能出現神經壓迫，真人醫生卻沒有想到這一點。

對于 AI 醫生的不足，薛峰認為，AI 醫生無法查體，但 AI 醫生也沒有關注查體結果，比如關節的活動度、有無壓痛點等等。此外，對檢查結果，AI 醫生只會讀報告，報告怎麼寫的就會認為是什麼樣的，但專科醫生要自己會看片子，" 片子上的細微改變，報告有時候是體現不出來的 "。

中日友好醫院心内科主任醫師任景怡舉例，對早搏問題，AI 醫生還關注了中度貧血，這在臨床上可能跟早搏密切相關，但在實際工作中，專科醫生比較聚焦自己的專業，可能會忽略相關症狀。AI 醫生的知識儲備比較全面。

多位專家認為，AI 醫生雖然問診詳細，但是針對性不夠強，系統性和邏輯性也不夠強，還有待訓練。