醫療版ChatGPT直播評測！治療方案與真人醫生96%一致

今天小編分享的科學經驗：醫療版ChatGPT直播評測！治療方案與真人醫生96%一致，歡迎閱讀。

國内首個醫療大模型，已經在 " 接診 " 患者了。

最近，一組 AI 醫生醫院真實站崗數據曝光：

共接診120多名患者，從問診、檢查到診療方案全流程覆蓋；

涉及心内科、消化内科、呼吸内科、内分泌科、腎髒内科、骨科、泌尿外科七大疾病科室，患者疾病類别多元，復雜程度不一；

醫學水平不輸國内三甲醫院主治醫生，與真人醫生診療方案一致性達到 96%；

來自北大人民醫院、中日友好醫院、阜外醫院和友誼醫院等國内頂尖醫院的 7 位專家教授圍觀點贊。

這樣公開化、規模化的 AI 醫生評測，在國内是首次，放眼全球也是第一次見到。

更想不到的是，背後的主角MedGPT——基于 Transformer 的1000 億參數大模型，才剛問世一個月。

目前在實際診療中，它已經具備多輪連續對話和多模态能力。而在未來規劃中，MedGPT 還會上線醫療版的Plugin Store，預計将搭載 1000+ 醫療應用，極大豐富 AI 醫生的診療工具，提升診療效率。

從上述這些數據與表現來看，96% 的一致性，想不到。

這樣的迭代速度，更想不到。

MedGPT 直播首秀：接待百名患者

這場直播首秀其實是一場實打實的人機醫學一致性評測。除了 AI 醫生 MedGPT 外，還有 10 位來自四川大學華西醫院的主治醫師共同參與。

為了保證評測的權威性和科學性，一方面由國内頂尖醫院的專家教授組成評審團，進行審核和多維度打分。

另一方面，整個流程也進行了特别的設計。簡單來說，患者進屋問診，但是是和有醫師執業資格的 " 翻譯員 " 對話。翻譯員把患者主訴在電腦上分别傳遞給真人醫生和 AI 醫生，如此多輪往復，最終根據檢查結果，給出診斷。

就像當初AlphaGo 大戰圍棋界，中間幫助 Alpha 執行 " 落子 " 動作的執棋手，就是這個 " 翻譯員 " 的角色了。

這樣一來 AI 醫生與真人醫生之間互不幹涉，且條件基本一致，雙方就能給出獨立的判斷。

最終，經過一天的鏖戰，真人醫生綜合得分為 7.5 分，AI 醫生綜合得分為 7.2 分，比分結果上一致性達到了 96%。

在評審過程中，專家們也發現了一些意想不到的 " 驚喜 "：

比如，出現漏診誤診的概率比較小。

北大人民醫院薛峰主任就發現，MedGPT 通過多輪詢問，根據患者腳底板疼痛症狀，竟然在最後可以推斷診斷出「有可能出現壓迫頸神經」這樣的結果。

這也就是說，從知識儲備上，AI 醫生其實可能高于一個經驗不太豐富的醫生。

另外，MedGPT 就診時的" 沉穩 "表現也得到了點贊。

中日友好醫院心内科主任醫師任景怡就表示：我覺得最好的一點是當診斷尚不明确時，MedGPT 并不會輕易給出結論，而是要堅持通過繼續問診或檢查收集更多信息。

于是即便 MedGPT 還存在一定問題，她還是給了比真人醫生還高的分數，并直言：這是裡程碑的結果。

不可否認的是，MedGPT 還有些問題需要調整，幾位專家指出它會出現偶爾過度給出治療建議、重復推薦檢查項目、某些概念表述不準确，以及無法實現查體等局限——要想 MedGPT 更加可用，這些意見一定程度比正面評價還要重要。

但總的來說，首個醫療大模型的公開首秀的結果還算不錯。

總結下來，首先是大模型的基本能力都有，語義理解、多輪對話、多模态識别等，還能像 OpenAI 那樣通過插件商店鏈接到各種行業應用。

還有通用大模型被廣為诟病的對齊和準确性問題，MedGPT 整個流程結果也不輸真人醫生。

再從行業維度來看，确實能真正從醫學角度為醫生提供有效幫助，提升患者疾病管理效率。

此次真實測試過程中可以看到，它能基于有效問診以及醫學檢查數據，MedGPT 得以進行準确的疾病診斷，并為患者設計疾病治療方案。

甚至在診後，MedGPT 還會在患者收到藥品後進行用藥指導與管理、智能随訪復診、康復指導等智能化疾病管理工作。

目前它基本覆蓋ICD10 的 60% 疾病病種，這意味着常見病症都能 Hold 住 ~

還能7*24 小時不間斷幹活，一旦規模化落地輔助醫生診療，能大大提升醫療效率，對于分級診療，醫療資源普惠，都能夠發揮一定作用。

首個醫療大模型如何煉成？

醫療向來是 AI 落地中專業性最強、壁壘性最高，對安全要求最高的領網域之一。

以往用戶們會習慣性使用信息搜索來幫助自己做一些初步的疾病判斷，但信息魚龍混雜，普通用戶缺乏專業知識無法進行有效篩選，最終導致往往會收效甚微。

但又因為這個領網域牽涉到每個人的生命健康，市場需求和社會價值一直很大。

因此自 ChatGPT 誕生以來，關于何時能在醫療領網域 " 上崗 " 發揮作用，就備受產學研各界專家的關注。

誠如 " 弱智吧 " 成為檢驗各個通用大模型能力的 Benchmark 一樣，各個大模型的醫療能力也在美國執業醫師資格考試 USMLE中摩拳擦掌。

早些時候， 哈佛大學教授曾親自下場測試 ChatGPT 輔助診斷的表現。

結果顯示，ChatGPT 在 45 個案例中 39 個診斷正确，并為 30 個案例提供适當的分診建議。這樣的表現已經超過現有機器診斷水平，接近醫生。

另一個代表，谷歌健康團隊打造的Med-PaLM 2，它能回答各種醫學問題，據稱是首個在美國醫療執照考試中達到專家水平的大語言模型。

但能做題并不能意味着就能落地應用。

以GPT-4為首的通用大模型，他們高度依賴文本統計概率生成答案。相信大家也能感知到它很擅長一本正經地胡說八道，如果應用在日常交流，倒也樂在其中。

但要是應用到行業中去，往往非專業人士會難以察覺，這就會引發各種風險，尤其又像醫療這種民生行業，對内容生成的把控要求更高，容不得半點差池。

更不用說醫療本身覆蓋知識面廣而繁雜，而且從整個就醫流程來看，診前、診中、診後都涉及各種各樣長尾任務，所需高質量數據可能并不比通用模型小，且大部分數據不是靠網上摘取。

這對企業來說，不單只是算法、算力和數據的考驗，而是一整套系統工程性難題。

既然如此，作為國内首個醫療大模型 MedGPT，又是如何做到的呢？

簡單總結：專業大模型，以及多種準确性機制保架護航。

首先，一上來就打造醫療大模型。

此前專業大模型的思路是，先打造一個大模型，再利用專業數據做監督微調。但 MedGPT 直接是以醫療數據預訓練、微調以及超 100 名醫生參與 RLHF 機制。

這就需要企業既要在垂直行業深耕，還要有 AI 技術實力。這就需要提及它背後的締造者——醫聯。

在行業上，作為互聯網醫療的早期入局者，醫聯已經積累了超過 150 萬醫生和 2000 萬患者，穩固的醫患關系鏈長期互動之下，形成了大量專業的醫學數據。

此外醫聯長期關注醫療與技術的深度融合，已打造了近 140 個疾病管理标準化流程，涉及腫瘤、心腦血管、糖尿病等常見病症，覆蓋 1000 多個病種，形成了一整套全數字化全流程疾病管理體系。

在互聯網醫療時代，這些疾病管理體系可以為行業提供線上管理的有效依據，提升行業整體效率。而在 AI 賦能下的數字醫療行業來臨之時，這便成了 AI 醫療的重要依托。

至于在 AI 方面，這家公司很早就開始關注并進行謀劃：早在 2017 年醫聯就建立起醫療大數據結構化能力；2018 年就将 NLP、CV 等 AI 技術應用落地，比如智能體液檢測、智能分診、口腔影像識别等場景。

2019 年還推出針對單病種 / 分階段的 AI 診療模型，曾聯手多家醫院及機構，創建亞洲首個多發性硬化症領網域的早篩 AI 模型，幫助患者提前 1-3 年提升多發性硬化症的風險預測和防控能力。

這些前期在 AI 領網域的摸索以及長期的醫學與前沿技術的融合，成為醫聯能率先在行業内推出醫療大模型并應用的基礎，可以說這一切絕非偶然。

讓我們再往深看一步，為了保證醫療大模型的準确性和一致性，醫聯從模型到實際應用同樣做了不少工作。

包括模型算法的一致性校驗機制、多維度診療評測機制，以及基于專家評議的真實世界醫生一致對标機制。

比如，在為患者輸出正式答案前，會先經過臨床醫學規則器的校驗。還有招募真實醫生在電腦前判斷，然後将兩者結果交給專家委員會評議，以此來對标真實醫生。

基于這樣的方法論，醫聯團隊率先為專業大模型的打造在行業中打了個樣。

醫療 AI2.0 大幕拉開

最後回到 MedGPT 公開評測這件事情本身，也帶來了大模型發展進程中的三點趨勢。

第一、醫療 AI2.0 大幕已經拉開，系統復雜性問題将會得到解決。

以大模型為代表的 AI2.0 時代的到來——對話即入口，讓所有的應用場景都得到了重新定義。被 AI 所輻射的千行百業也深處于變革之中。

以往 AI 1.0，NLP、CV、多模态等單點技術蓬勃發展，醫療 AI 應用場景豐富多樣，他們強規則、具有可控性。但場景、數據之間沒有打通，導致泛化能力不強，無法處理系統性、復雜性的問題。

得益于 Transformer，打破了模态、數據、任務場景之間的壁壘。醫療場景中，利用海量醫學文本與數據中，進行高并發 / 長距離學習整合，一些復雜性、系統性問題可以得到解決。

如果繼續暢想，結合醫聯的雲藥房、雲檢驗等雲化能力，不僅是 AI 醫生本身疾病管理能力會得到提升，患者甚至可以擺脫地理限制，輕松完成所有疾病從預防、診斷、治療、康復的全流程管理路徑。

這其實也并不難想象，只需要知道有一個能看各個專科領網域并且比肩三甲醫院醫生的 AI 醫生能夠 24 小時在你身邊為你出診，同時，檢驗檢測服務在家附近 1 公裡就能全部完成。

有去三甲醫院排隊挂号看病經歷的同學應該都懂——專家挂不上号、檢驗檢查等一個月，這都是時有發生的事情。降本增效、解決行業問題，走入醫療的下一個時代，就是靠 MedGPT 這類專業模型做的。

第二、大模型的行業紅利并非在科技巨頭手中，而在有場景有數據的玩家手裡。

相信大家都或多或少有所看到，目前醫療領網域的專用大模型和產品正在不斷問世，最具代表性的產品來自谷歌和微軟這兩個大廠。

谷歌 Med-PaLM 2 目前正在嘗試多模态能力，比如自己檢查 X 光片後給出診斷。在今年晚些時候将對一小部分谷歌雲用戶開放。

還有被微軟 200 億美元收購的 Nuance，借由微軟 OpenAI 合作之便，正在将 GPT-4 集成到臨床筆記軟體 DAX 中，以減輕臨床醫生的負擔。

前者的大模型還沒有到真正落地，後者無非是集成通用大模型的 API，其行業的準确性和一致性無法得到保障。

但 MedGPT 一亮相就驚豔全場，并拿下多個行業首次：

首次突破 AI 醫生多輪對話的難題；

首次實現從有效問診到醫學檢查的跨越；

首次實現 AI 給出準确診斷和治療方案；

首次 AI 具備全流程診斷能力……

這與垂直領網域深耕、有場景有數據有關。

醫聯在醫療行業有 9 年深耕，積累了豐富的知識、數據和應用，構築起了深厚的技術和用戶壁壘。

一旦實現大模型技術的應用，在現有的用戶場景基礎之下，将會迅速規模化落地。這是其他想入局者無法擁有的先發優勢。

上一次 AI 浪潮來襲時，最終也是場景玩家率先吃掉 AI 紅利。

現在同樣也依舊是場景玩家吃掉大模型紅利，只不過技術路徑已經明晰，落地速度自然要比以往快得多。

第三，醫療 AI 落地提速，也側面印證了大模型的發展趨勢——

雪球效應展現，從技術到應用部署的飛輪會越轉越快。

ChatGPT 最開始只會一本正經地胡說八道，短短幾個月内基于用戶反饋、插件開發生态，真正被各行業的人加入到工作流中，并上線了端側應用。

還有 Midjourney、Stable Diffusion 被人诟病無法畫手的問題，也能在短短幾周内解決；以及國内大模型湧現、更新速度加快，文心一言一個月能迭代四次等等。

"大模型 - 應用 - 數據" 的加速閉環一旦打通，那麼產業落地的速度将會比上一波浪潮更快。

而醫聯大模型 MedGPT 一個月就進入到真實患者全流程測試階段。在此之後，根據數據飛輪迭代大模型，落地速度只會越來越快。

或許很快，醫療 AI2.0 就會惠及到每個人身邊。

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~