今天小編分享的科技經驗:中國GPT醫生,一腳踢向最大“絆腳石”,歡迎閲讀。
出品 | 虎嗅科技醫療組
作者 | 陳廣晶
編輯 | 苗正卿
頭圖 | 視覺中國
每個人都是移動的 " 數據礦 ",但是,還是養不活 AI 醫生。
" 你的血壓在升高 "" 我這樣做能改善你的情緒嗎 " ……這是電影《超能陸戰隊》中健康管家 " 大白 " 的經典台詞。研究者給他安裝了 " 醫療芯片 " 賦予其治病救人的能力。
在全球都深陷 " 看病難看病貴 " 泥潭的今天,誰不想要一個 24 小時監測健康情況、随時解決健康問題的 " 大白 "?但是現實情況是,無論是用于嚴肅的醫療場景,還是日常健康管理,沒有足夠的數據,很多 " 大白 " 都是巧婦難為無米之炊。
在其背後,醫療數據領網域長期存在的因醫療亂象而產生的 " 髒數據 ",以及各家醫院分而治之導致的标準不統一、" 數據孤島 " 等問題,都成了新技術在健康領網域應用的桎梏。
為了解決數據問題,AI 醫療、AI 制藥公司,從合成數據到自建 " 數據礦 "(自動化實驗室)想了很多辦法,但是核心的,與病人直接相關的數據,還是很難獲得。
現在情況正在改變。
就在 8 月 30 日,國務院常務會議剛剛審議通過了《網絡數據安全管理條例(草案)》 。其中明确提到了" 要厘清安全邊界,保障數據依法有序自由流動 ",進而,為促進數字經濟高質量發展、推動科技創新和產業創新營造良好環境。
這意味着,大數據的價值被提到了新的高度,大數據交易的規則和路徑也在逐漸清晰。乘着這場東風,AI 醫療發展的數據難題有望快速解決。
醫療數據能在陽光下 " 變現 " 了
胸科單一病種 " 數據集 "," 賣 " 了 150 萬元;
經過資產登記、質量評估和資產價值評估,某醫院的抑郁症病數據 " 賣 " 了 500 萬元;
在骨科機器人輔助下完成的骨科手術,相關數據按照 1020 萬元增資入股到了一家公司……
這是 2024 西普會 "AI For Health" 高峰論壇上,北京國際大數據交易所(簡稱 " 北數所 ")副總經理潘衝分享的案例,就真實發生在中國醫療領網域。
作為落地部門,潘衝所在的北數所推動 " 醫療健康數據流通試點 " 落地——該活動由北京市經濟和信息化局會同北京市醫管中心組織北京安定醫院、北京積水潭醫院等 6 家市屬醫院開展,已經完成了累計 2000 萬元的交易。
就在潘衝分享上述案例之前,心理應用大模型 " 洞見人和 ",已經完成了數據資產評估,以 3.25 億元的高價刷新了行業認知。
這些事件都在傳遞一個信号,那就是醫療數據真的可以 " 變現 " 了,也真的可以體現在财務報表上,讓财務數據更好看。
數據的 " 錢 " 力不止于此。
僅在醫療領網域,根據安永(Ernst & Young Global Limited)報告,NHS(英國國家醫療服務體系)的醫療數據,每年產生的總價值達到 96 億英鎊(約合 897 億元人民币)。這些數據還只覆蓋了 5500 萬人的電子病歷和觸及護理記錄、2300 萬人的專科護理記錄以及 10 萬人左右的基因數據。
在患者更加眾多的中國——根據國家醫保局統計數據,僅住院就有 2 億人,門診慢特病有 3.4 億人,可以產生的數據量幾乎是英國的數倍之多,如果充分流通起來,這些數據能夠產生的價值将非常可觀。
按照國家工信安全中心測算,到 2025 年,數據交易将貢獻國内 GDP 增長的 1.8%,數據要素的規模產值将突破 1.5 萬億元。醫療數據是其中重要組成部分,也将很快達到 500 億元規模。
而且,這潑天富貴中,也有普通人的一杯羹。
在 " 數據二十條 "(全稱《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》)裏,有關于 " 建立健全個人信息的數據确權授權機制,探索個人分享的數據價值收益的方式 " 的内容,北京市的 " 數據二十條 " 裏面也專門提到了相關内容。
為此,北數所也建立了數據授權平台,可以對接到個人和企業。對接到北數所平台上的個人數據,如果被申請使用,這個人就會收到授權請求信息,在充分了解誰将在什麼場景使用數據的情況下,選擇同意或拒絕授權對方使用。如果同意授權,這個人就可以從該交易中分到一筆收益。
" 我們每個人名下都有成千上萬條這樣的數據,它們都是個人的數據資產。" 潘衝説。
事實上,數據的價值,特别是醫療數據的價值,被觊觎已久。在數據交易通道沒有打開之前,數據也在灰色地帶持續交易着,只是在那裏,個人的隐私得不到保護,更不用説獲得收益了。
數據交易放到陽光下以後,交易的數據要脱敏,獲取方式也要合規,這樣就可以形成多方獲益的局面了——除了直接地惠及醫生和患者,因為具有幫助快速把握事物規律的屬性,這些數據也将在新藥開發、公共衞生管理等方面給出更多支撐。
來自:視覺中國
中國 "AI 醫生 " 不能再等了
在 AI 快速發展的今天,數據交易已經日漸成為 " 剛需 " 了。
盡管 ChatGPT 等人工智能大模型,已經給碳基生命帶來了太多震撼,但是,它們還是沒法在缺乏專業數據的情況下,成為任何領網域的專家。以 ChatGPT 為例,它可以通過語言文字認識顏色,了解沒有見過的事物,但是沒有受過訓練的情況下,也沒法很好地勝任健康咨詢的任務。
2023 年,一份發表在權威期刊 JAMA(美國醫學會雜志)上的試驗結果顯示,ChatGPT 在根據現行臨床指南針對心血管疾病預防保健提出建議時,雖然有 84% 的回答是合理的,但是另外 4 個答案,不僅錯誤,而且有害,是嚴肅的臨床診療中絕對不允許出現的。更多試驗中,還進一步發現了倫理、法律等方面的問題。
這既提示了對 ChatGPT" 行醫 " 需要有更多人工復核、監督的問題,也説明專業數據對特定領網域的人工智能,特别是醫學、生命科學等容錯率非常低領網域的人工智能,是足以扼住咽喉的影響因素。
從整體來看,人工智能已經是國家競争力比拼的關鍵,如果在這方面落後于人,并不只是導致某個產業的落後,更會在經濟增長、科技創新等各個方面拖後腿,甚至會在社會問題,如城鄉差距、老齡化等問題的解決上落後于人。
由于大模型逐漸在 AI 世界占據主導,作為 " 燃料 ",數據已經成了下一階段各國 AI 競争的關鍵,甚至有業内人士稱其為人工智能的 " 護城河 "。
正因為此,國家層面對數據如何在安全有序的前提下,順暢交易,已經越來越重視。除了前述提到的《網絡數據安全管理條例(草案)》,此前還有諸多檔案發布,包括綱領性的 " 數據二十條 ",推動落地、列出時間表的《" 數據要素 X" 三年行動計劃(2024-2026 年)》 等。
在今年全國兩會期間," 數據交易 " 也是被頻頻提到的熱詞。還有相關專家建議建立國家級數據交易市場,方便 " 數據要素 " 在全國範圍内自由交流、交易。
在 AI 最為重視的生命科學領網域,各方都更加迫切地需要數據流通起來。有 AI 制藥頭部公司聯合創始人直言,AI 制藥接下來的競争将在數據領網域。
這種緊迫感,随着全球 AI+ 醫療、制藥競争的白熱化,也在不斷更新。
從公開數據看,2012 年到 2022 年,美國食品藥品監管部門 FDA 批準的 AI 相關醫療器械數量增長了 45 倍以上。
全球領先的醫療大模型谷歌的 Med-PaLM2,在此前的測試中已經表現出了與醫生基本相當,甚至超過人類專家的實力。2023 年發表在《急診醫學年鑑》上的一項研究顯示,歐洲研究者向 AI 提供了 30 名急診患者的症狀、體檢和化驗結果記錄後,AI 對患者作出正确判斷的比例為 97%,超過人類醫生的 87%。
這當然不意味着人類醫生會被 AI 取代,但是,意味着,在接下來生命科學領網域的尖端探索中,沒有 AI 輔助工具的醫生,很可能會遠遠落後于有 AI 輔助的醫生。
而在國内外醫療 "AI 助手 " 成長為 "AI 醫生 " 的道路上,一定規模的高質量臨床數據也必不可少。
從這個意義上講,中國醫療領網域的 AI,也不能再受限于數據了。
來自:視覺中國
還只是開始
客觀來説,中國在打破 " 醫療數據孤島 " 方面也做了很多努力,也有了一些初步的成果。
比如:北京、上海等城市已經建立了區網域統一的醫療數據平台;浙江省部分醫療影像數據已經可以在公立醫院之間共享了;如前所述,醫療數據的交易也在多個示範區悄然開始了。
對于藥械企業來説,今年 1 月份以來,數據也可以作為資產列入财務報表了。根據公開信息,截至上半年,已經有 125 家企業加入到了數據資產入表的行列,涉及多家藥械企業。
臨床方面,在中國,支付寶、百度、騰訊等互聯網巨頭,都在嘗試将 AI 技術與診療活動、健康管理結合起來,清華大學的 "AI 醫院 " 也曾引起過大眾的一波關注熱潮。
盡管如此,其背後的支撐因素,充分利用醫療數據才剛剛開始,挑戰仍然很多。潘衝直言,醫療數據交易非常敏感,大家操作的時候都是小心翼翼的,所以必須一步一步通過試點推開。
實際上,中國并不缺少醫療數據。國家衞健委發布的最新版衞生年鑑顯示,2023 年,全國衞生機構總診療人次達到 96 億人,由此產生的醫療數據預計早已超過百億條。業界認為,如此龐大的數據儲備規模,已經堪稱是國家重要的基礎性戰略資源了。
但是,因為各家醫院标準不統一,數據參差不齊,存在數據精準度不夠,數據一致性不夠,原始數據在錄入過程中數據錯漏、數據不完整等問題。此外,由于大量醫療數據是以文本、影像、影像等非結構化方式儲存的,這些數據的管理和整合也非常困難。
(虎嗅注:非結構化數據,是指數據結構不規則或不完整,沒有預定義的數據模型,難以用數據庫二維邏輯表來表現的數據。)
同時,這些醫療數據還涉及患者的個人隐私等問題,有醫療數據領網域法學專家曾指出:" 如果沒有每個醫療機構對數據按照統一技術标準清洗處理和合規治理,很難想像醫療數據可以安全有效地開放利用。"
而要把這些數據,通過治理變成分門别類、清晰準确、可以用的狀态,也就是成為 " 產品 ",這件事本身難度就非常大,也需要巨大的資金投入。
更為棘手的是,作為數據供給方,醫療機構和藥企,都還缺乏拿數據賺錢的動力。當下,由衞健委、醫保局或者地方政府主導,匯總醫療機構數據,做一部分治理以後形成公共數據,再将這些公共數據的使用權賣給有需要的 AI 企業的模式,反而成了當下最行之有效的通路。
實際上,即便是沒有做任何治理,只是備份數據,就已經很令醫療機構頭疼了。随着數據積累越來越多,一些大三甲醫院的信息科負責人已經在抱怨,現在設備越來越先進、越來越精準,導致數據量越來越多。
" 目前的數據治理能力跟不上數據資源的膨脹速度。" 華通智研院副總經理、青島數據資產登記評價中心主任趙傳啓告訴虎嗅。
即便是高質量的數據,也存在場景評估和價值評定标準缺失的問題;這些數據如果沒有應用場景,也無法形成交易。而且很多涉及個人的數據,在采集過程中沒有獲得個人授權,這也會在交易環節帶來合規問題。
醫療行業是一個強監管的行業,任何新技術進入其中都會受到慎重的評估。疊加上同樣嚴格的數據管理規則,業界人士擔心,立法過于嚴格會限制行業的發展。" 現在的一些法律如果嚴格執行,很多事情就做不了了。"
這些問題的解決需要業界付出更多努力,需要政策、技術上有更多突破。在此之前,潘衝認為," 當前的第一步,是一定要把數據拿出來,要交易,要讓數據進入市場。"
實踐會解決很多問題,比如:如何定價。" 就像超市裏的商品,沒有權威機構給它定價,有市場規律在起作用。" 潘衝認為,充分的流通交易後市場會給出一個合理的價格。數據的價值也有望在使用中充分體現,甚至不斷增值。
對于如何激發供方參與積極性,趙傳啓認為," 建立起讓各方受益的利益分配機制,或許是較好地解決問題的方式。"
無論如何,醫療數據交易的閘門已經打開了,新技術對生命科學這個傳統行業的衝擊也洶湧而至。按照中康科技董事長吳瀚的預測,未來三五年,大數據也好、AI 也好,新技術會廣泛滲透到健康產業的各個環節。
屆時,每個人擁有自己的 " 大白 " 或許也不再是奢望了。