GPT-4o醫學知識覆蓋率僅55%？騰訊優圖團隊發布大模型醫療能力“體檢報告”

今天小編分享的科學經驗：GPT-4o醫學知識覆蓋率僅55%？騰訊優圖團隊發布大模型醫療能力“體檢報告”，歡迎閱讀。

醫療大模型知識覆蓋度首次被精準量化！

在醫療領網域，大語言模型（LLM）的潛力令人振奮，但其知識儲備是否足夠可靠？騰訊優圖實驗室天衍研究中心的最新研究給出了答案。

他們提出的MedKGEval 框架，首次通過醫療知識圖譜（KG）的多層級評估，系統揭示了 GPT-4o 等主流模型的醫學知識覆蓋度。

該研究已被 WWW 2025 會議 Web4Good Track 錄用為口頭報告（oral）。目前，WWW 2025 正在悉尼舉行，會議時間從 4 月 28 日持續至 5 月 2 日。

背景

大語言模型（LLM）在醫療領網域的快速發展凸顯了其知識存儲與處理的潛力，但其臨床部署前的可靠性驗證亟需更系統化的評估框架。

當前主流的 Prompt-CBLUE、Medbench 和 MedJourney 等評估體系雖通過醫學問答基準測試 LLM 的任務執行能力，卻存在三個明顯的局限：

1）其長尾數據分布導致罕見病症覆蓋不足，評測結果存在偏差；

2）任務導向的設計聚焦疾病預測、用藥咨詢等單一場景，難以量化模型内在醫學知識儲量；

3）傳統問答形式局限于表面對錯判斷，無法捕捉醫學概念間的復雜拓撲關聯。

為解決這些問題，本文提出基于醫療知識圖譜（KG）的多層級評估框架 MedKGEval。

醫療 KG 通過結構化存儲復雜實體關系網絡，為評估提供天然基準。框架創新性地設計三級評估體系：實體層評估醫學概念理解，關系層檢驗醫學關聯區分能力，子圖層驗證結構化推理水平。

通過真偽判斷和多選題形式，同時實現任務導向（task-oriented）的粗粒度性能評估與知識導向（knowledge-oriented）的細粒度三重覆蓋度測量（實體 / 關系 / 知識三元組）。

醫療知識覆蓋度評估框架 MedKGEval

在 MedKGEval 中研究團隊設計了多層級的任務體系，其中包含 3 個層級的 9 項核心任務，通過真偽判斷（TFQ）與多選題（MCQ）任務形式，實現任務導向與知識導向的雙重評測。

具體評估流程框架見下圖。

任務架構設計

基于醫療知識圖譜的實體、關系、三元組結構，構建三級評估體系：

實體層面（3 項任務）：驗證醫學概念理解

實體類型标注（ET）：通過多選題識别 " 糖尿病 " 等實體的分類标籤（如疾病 / 症狀）

實體聚類（EC）：從 5 個實體中辨識類型異常項（如混入症狀類别的藥物實體）

實體消歧（ED）：判斷兩個實體是否等價，比如 " 阿司匹林 " 與 " 乙酰水楊酸 " 是否為等價實體

關系層面（3 項任務）：檢驗醫學關聯認知

關系類型标注（RT）：選擇 " 并發症 " 關系可連接的實體類型對（如疾病→疾病）

事實核驗（FC）：判斷三元組的真偽，比如 " 布洛芬 - 治療 - 偏頭痛 "

關系預測（RP）：補全實體之間缺失的關系，比如 " 冠狀動脈硬化→ ( ? ) →心肌梗死 "

子圖層面（3 項任務）：評估結構化推理

錯誤識别（ER）：從 5 個三元組中檢測異常項（如錯誤藥物禁忌關系）

子圖推理 1（R1）：基于多跳關系推理，比如基于 " 高血壓→并發症→腦出血→影像檢查→ CT" 路徑，推斷 " 高血壓→影像檢查→ CT" 是否成立

子圖推理 2（R2）：在相同推理鏈中，從候選關系中選擇正确關聯

随着利用的 KG 信息增多，任務難度也在逐漸升高，這樣階梯式、多層級的評估更有利用全面了解 LLMs 的性能。

任務導向和知識導向的評估機制

在每項任務中均配備評估核心實體 / 關系映射（如上圖 core E and R），實現細粒度知識覆蓋分析：

任務導向評估：計算準确率指标

知識導向評估：

實體覆蓋率：實體正确率均值（CovAvg-E）、引入節點中心度加權（CovDeg-E）

關系覆蓋率：關系正确率均值（CovAvg-R）、按關系出現頻次加權（CovDeg-R）

三元組覆蓋率 Cov-T：反映知識單元整體掌握度

實驗及評估結果

MedKGEval 選用中文醫療領網域主流知識圖譜 CPubMedKG 和 CMeKG 作為基準，經下采樣構建實驗數據集。

評估模型涵蓋三大類：1）開源通用模型；2）醫療垂類模型；3）閉源模型。

下表展示了 11 個 LLM 的任務導向評估結果，可以看到：GPT-4o 以 70.65% 平均準确率領先；同架構 LLM 參數量翻倍帶來 3-5% 準确率提升；大多 LLM 在實體層面任務上表現優于關系和子圖層面；通用模型性能超越醫療垂類模型（歸因分析：垂類模型微調數據側重具體任務（如用藥咨詢、醫患對話摘要），導致醫學知識廣度受限）。

下表展示了 11 個 LLM 的知識導向評估結果，可以看到：GPT-4o 在 CPubMedKG ( small ) 上覆蓋了 65.66% 的實體、55.60% 的關系、62.31% 的三元組；更大的參數量通常會帶來更高的知識覆蓋度；CovAvg 和 CovDeg 的對比體現出了 LLM 對高關聯度實體（如糖尿病）和高頻關系（如鑑别診斷）的偏好性：CovAvg < CovDeg 說明 LLM 在高關聯度實體的上表現更好、反之說明 LLM 在低關聯度實體上表現更好。