今天小編分享的科學經驗:GPT-4o醫學知識覆蓋率僅55%?騰訊優圖團隊發布大模型醫療能力“體檢報告”,歡迎閱讀。
醫療大模型知識覆蓋度首次被精準量化!
在醫療領網域,大語言模型(LLM)的潛力令人振奮,但其知識儲備是否足夠可靠?騰訊優圖實驗室天衍研究中心的最新研究給出了答案。
他們提出的MedKGEval 框架,首次通過醫療知識圖譜(KG)的多層級評估,系統揭示了 GPT-4o 等主流模型的醫學知識覆蓋度。
該研究已被 WWW 2025 會議 Web4Good Track 錄用為口頭報告(oral)。目前,WWW 2025 正在悉尼舉行,會議時間從 4 月 28 日持續至 5 月 2 日。
背景
大語言模型(LLM)在醫療領網域的快速發展凸顯了其知識存儲與處理的潛力,但其臨床部署前的可靠性驗證亟需更系統化的評估框架。
當前主流的 Prompt-CBLUE、Medbench 和 MedJourney 等評估體系雖通過醫學問答基準測試 LLM 的任務執行能力,卻存在三個明顯的局限:
1)其長尾數據分布導致罕見病症覆蓋不足,評測結果存在偏差;
2)任務導向的設計聚焦疾病預測、用藥咨詢等單一場景,難以量化模型内在醫學知識儲量;
3)傳統問答形式局限于表面對錯判斷,無法捕捉醫學概念間的復雜拓撲關聯。
為解決這些問題,本文提出基于醫療知識圖譜(KG)的多層級評估框架 MedKGEval。
醫療 KG 通過結構化存儲復雜實體關系網絡,為評估提供天然基準。框架創新性地設計三級評估體系:實體層評估醫學概念理解,關系層檢驗醫學關聯區分能力,子圖層驗證結構化推理水平。
通過真偽判斷和多選題形式,同時實現任務導向(task-oriented)的粗粒度性能評估與知識導向(knowledge-oriented)的細粒度三重覆蓋度測量(實體 / 關系 / 知識三元組)。
醫療知識覆蓋度評估框架 MedKGEval
在 MedKGEval 中研究團隊設計了多層級的任務體系,其中包含 3 個層級的 9 項核心任務,通過真偽判斷(TFQ)與多選題(MCQ)任務形式,實現任務導向與知識導向的雙重評測。
具體評估流程框架見下圖。
任務架構設計
基于醫療知識圖譜的實體、關系、三元組結構,構建三級評估體系:
實體層面(3 項任務):驗證醫學概念理解
實體類型标注(ET):通過多選題識别 " 糖尿病 " 等實體的分類标籤(如疾病 / 症狀)
實體聚類(EC):從 5 個實體中辨識類型異常項(如混入症狀類别的藥物實體)
實體消歧(ED):判斷兩個實體是否等價,比如 " 阿司匹林 " 與 " 乙酰水楊酸 " 是否為等價實體
關系層面(3 項任務):檢驗醫學關聯認知
關系類型标注(RT):選擇 " 并發症 " 關系可連接的實體類型對(如疾病→疾病)
事實核驗(FC):判斷三元組的真偽,比如 " 布洛芬 - 治療 - 偏頭痛 "
關系預測(RP):補全實體之間缺失的關系,比如 " 冠狀動脈硬化→ ( ? ) →心肌梗死 "
子圖層面(3 項任務):評估結構化推理
錯誤識别(ER):從 5 個三元組中檢測異常項(如錯誤藥物禁忌關系)
子圖推理 1(R1):基于多跳關系推理,比如基于 " 高血壓→并發症→腦出血→影像檢查→ CT" 路徑,推斷 " 高血壓→影像檢查→ CT" 是否成立
子圖推理 2(R2):在相同推理鏈中,從候選關系中選擇正确關聯
随着利用的 KG 信息增多,任務難度也在逐漸升高,這樣階梯式、多層級的評估更有利用全面了解 LLMs 的性能。
任務導向和知識導向的評估機制
在每項任務中均配備評估核心實體 / 關系映射(如上圖 core E and R),實現細粒度知識覆蓋分析:
任務導向評估:計算準确率指标
知識導向評估:
實體覆蓋率:實體正确率均值(CovAvg-E)、引入節點中心度加權(CovDeg-E)
關系覆蓋率:關系正确率均值(CovAvg-R)、按關系出現頻次加權(CovDeg-R)
三元組覆蓋率 Cov-T:反映知識單元整體掌握度
實驗及評估結果
MedKGEval 選用中文醫療領網域主流知識圖譜 CPubMedKG 和 CMeKG 作為基準,經下采樣構建實驗數據集。
評估模型涵蓋三大類:1)開源通用模型;2)醫療垂類模型;3)閉源模型。
下表展示了 11 個 LLM 的任務導向評估結果,可以看到:GPT-4o 以 70.65% 平均準确率領先;同架構 LLM 參數量翻倍帶來 3-5% 準确率提升;大多 LLM 在實體層面任務上表現優于關系和子圖層面;通用模型性能超越醫療垂類模型(歸因分析:垂類模型微調數據側重具體任務(如用藥咨詢、醫患對話摘要),導致醫學知識廣度受限)。
下表展示了 11 個 LLM 的知識導向評估結果,可以看到:GPT-4o 在 CPubMedKG ( small ) 上覆蓋了 65.66% 的實體、55.60% 的關系、62.31% 的三元組;更大的參數量通常會帶來更高的知識覆蓋度;CovAvg 和 CovDeg 的對比體現出了 LLM 對高關聯度實體(如糖尿病)和高頻關系(如鑑别診斷)的偏好性:CovAvg < CovDeg 說明 LLM 在高關聯度實體的上表現更好、反之說明 LLM 在低關聯度實體上表現更好。
接下來,研究團隊使用 MedKGEval 評估框架對四個示例 LLM 在關聯度最高的 15 個實體和最高頻的 15 個關系上的知識覆蓋情況進行分析。
以常用臨床實體 " 超聲 " 為例,可以看到 GPT-4o 以 94.16% 正确率領先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。
在醫學關系覆蓋度上,4 個 LLM 也表現出了類似的特點。
分析結果表明,MedKGEval 能有效定位 LLM 在特定醫學知識領網域的認知缺陷。
這些發現對模型優化具有重要指導價值:如上圖所示,WiNGPT 在 " 肺結核 " 實體相關問答中表現欠佳、Baichuan2-13B 在 " 相關(轉換)" 關系中存在明顯短板。
因此,在下輪微調中建議針對性補充結核病診療指南和病理轉化機制相關數據,通過基于知識缺陷診斷的定向增強策略,可顯著提升醫療領網域 LLM 的整體性能。
總結
本文提出的 MedKGEval 框架通過醫療 KG 視角,構建了評估 LLM 醫學知識覆蓋度的多維度體系。
該框架在實體、關系和子圖三個層級展開評估,系統揭示了當前大語言模型在醫學知識存儲與推理能力方面的優勢與局限。
研究團隊提出的的任務導向與知識導向雙軌評估機制,不僅能夠精準定位模型的知識薄弱環節,更為提升醫療領網域 LLM 的可靠性和臨床應用價值提供了量化依據。
論文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代碼地址:https://github.com/ZihengZZH/MedKGEval
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見