今天小編分享的科技經驗:AI大戰10位華西醫院醫生,歡迎閲讀。
經濟觀察網 記者 瞿依賢 " 您好,麻煩您告訴我您的年齡及性别,以及哪裏不舒服?" 當真人醫生和 AI 醫生以同樣的問題開始問診,最後的診療結果、治療方案會一致嗎?
6 月 30 日,國内首次 AI 醫生與真人醫生一致性評測完成。這場 PK 發生在成都高新海爾森醫院,AI 醫生為互聯網醫療公司醫聯推出的 MedGPT,真人醫生是四川大學華西醫院的 10 位醫生,包括副主任醫師和主治醫師,涉及科室包括骨科、内分泌代謝科、心内科、腎内科、老年呼吸科、消化科和泌尿外科。參與這場義診評測的患者共 120 多位。
問診過程中,真人醫生和 AI 醫生都沒有與患者直接接觸,患者與醫生助理接觸,醫生助理通過電腦輸入文字分别與真人醫生和 AI 醫生聯系,真人醫生和 AI 醫生的問題也經由醫生助理傳遞給患者。
引導患者説出完整病情、收集足夠多決策因子後,真人醫生與 AI 醫生為患者開具檢查單或診斷,患者直接在成都高新海爾森醫院完成檢查;獲得檢查結果後,患者再復診,并由 AI 醫生及真人醫生提供臨床診斷及治療方案。
從開始問診到評審結果,整個過程在網上直播。
8 個小時的問診結束後,形成有效病例 91 份,由北大人民醫院、中日友好醫院、阜外醫院和友誼醫院的 7 位專家教授進行審核。7 位專家教授的專業與前述科室對應,評價維度包括 7 個——問診準确性、診斷準确性、治療建議準确性、輔助檢查方案準确性、數據分析準确性、提供可解釋信息、自然語言問診與互動。
最終,真人醫生綜合得分為 7.5 分,AI 醫生綜合得分為 7.2 分。AI 醫生與真人醫生在比分結果上的一致性為 96%。5 位專家給真人醫生的打分都高于 AI 醫生,只有 2 位專家給 AI 醫生的打分高于真人醫生,一位差 1.6,一位差 0.1。
在專家評審環節,北大人民醫院腎内科主任醫師蔡美順表示,AI 詢問比較全面,檢查也做得比較全面,不太容易漏診,但存在概念錯誤,比如 AI 醫生在其中一個病例的問診中説," 尿微量白蛋白在正常範圍内,腎髒的過濾功能是正常的 ",這句話就不準确。
蔡美順表示,這次一致性測評的樣本量還不夠豐富,總體來説," 人工智能對我們的工作有一些幫助 "。
北大人民醫院骨科主任醫師薛峰對 AI 醫生的評價是:總體不錯,稍稍有些超出預期。MedGPT 是一項非常有發展前景的技術,應該定位在常見病和基礎病的診斷上。
薛峰以 147 号病例舉例,這個病例的症狀是膝蓋痛,AI 醫生問診非常詳細,"MedGPT 不嫌累,話多,問題也很多 ",會關注女性患者是否正在備孕、懷孕,而現實臨床工作中,骨科醫生較少會問這類問題," 有些細節問題漏掉之後很容易犯一些錯誤,一些症狀漏掉之後也可能漏診 "。對膝蓋痛這種常見疾病,很多時候醫生需要做一些科普,告知患者生活中需要注意的事項,AI 醫生的詳細表達也會給患者更多信息。
薛峰還發現了一個 " 驚喜 ":MedGPT 根據患者腳底板疼痛判斷患者有可能出現神經壓迫,真人醫生卻沒有想到這一點。
對于 AI 醫生的不足,薛峰認為,AI 醫生無法查體,但 AI 醫生也沒有關注查體結果,比如關節的活動度、有無壓痛點等等。此外,對檢查結果,AI 醫生只會讀報告,報告怎麼寫的就會認為是什麼樣的,但專科醫生要自己會看片子," 片子上的細微改變,報告有時候是體現不出來的 "。
中日友好醫院心内科主任醫師任景怡舉例,對早搏問題,AI 醫生還關注了中度貧血,這在臨床上可能跟早搏密切相關,但在實際工作中,專科醫生比較聚焦自己的專業,可能會忽略相關症狀。AI 醫生的知識儲備比較全面。
多位專家認為,AI 醫生雖然問診詳細,但是針對性不夠強,系統性和邏輯性也不夠強,還有待訓練。