今天小編分享的互聯網經驗:醫療大模型,巨頭們的新賽場,歡迎閲讀。
文 | 劉曠
説起近兩年最熱門的話題,那一定非大模型莫屬了。眾所周知,伴随着 ChatGPT 的強勢出圈,全球範圍内掀起了一波人工智能熱潮,國内外的諸多企業都開足馬力,推出了自己的大模型產品。而 AI 大模型產品的不斷問世,也上演了一番 " 百模大戰 " 的盛況。
随着越來越多 AI 大模型產品的相繼推出,AI 大模型的落地應用也逐漸提上了日程,成為了各行各業的重點關注方向。值得注意的是,除了通用大模型之外,針對細分行業的垂直大模型數量也日漸增多,醫療場景更是受到各方關注的重點領網域。事實上,自 2023 年以來,已經有諸多頭部企業都在加碼醫療大模型領網域,而這也意味着大模型正在逐漸深入醫療行業。
大模型,醫療行業的新加速器?
近兩年,AI 大模型的熱度居高不下,各行各業都在積極擁抱 AI 大模型,希望 AI 大模型能夠為行業帶來新的變化,醫療行業也不例外。AI 大模型這股風已然吹到了醫療行業,一系列與醫療相關的大模型產品和應用正在相繼湧現出來。
比如,京東健康正式發布了面向醫療健康行業的大模型 " 京醫千詢 ";百度正式發布國内首個 " 產業級 " 醫療大模型 " 靈醫大模型 ";醫聯正式發布了自主研發的醫療大語言模型 MedGPT;衞寧健康則是發布了醫療領網域大模型 "WiNGPT"。在各路玩家相繼布局醫療大模型背後,也自有其邏輯。
對企業來説,AI 大模型的引入,有助于提升醫療效率,降低成本。AI 大模型是深度學習模型,這也就意味着 AI 大模型具備很強的學習能力,能夠對海量數據進行分析和處理,并進行推理和預測。正因如此,醫療大模型能夠對醫療數據進行分析和整理,并根據醫療信息進行相應的診斷,輔助醫生進行診斷,而這可以在一定程度上促進醫護工作者醫療效率的提高。比如,醫療大模型就能夠将醫生口述轉化為帶有對話語言的結構化筆記,極大地節省了醫生手寫病歷的時間,提升了工作效率。
對用户來説,AI 大模型產品的推出,有助于進一步提升患者的就診體驗,為其提供全方位醫療服務。不同于其他需求,用户的就醫需求是長期存在的,但受各類因素影響,患者往往面臨着多種難題,比如候診時間長、找不到相應科室等等,就醫過程中所遇到各種突發問題,也影響了患者的就醫體驗。而醫療大模型的出現,則有望解決患者在就醫過程中所遇到的痛點問題,為患者帶去更加高效、優質的就醫體驗。比如,在診前環節,醫療大模型就能夠根據患者的就醫需求,為其推薦相應的科室,解決了患者不知道該挂哪個科室的問題。
除此之外,AI 大模型的出現與應用,也能夠在一定程度上助推醫療行業數字化轉型加速。眾所周知,數字化轉型早已成為了各行業企業的重點發力方向之一,醫療行業也不例外。然而,不同于其他行業,醫療行業具備極大的特殊性和嚴肅性,再加上各地的基礎設施建設情況不同、新舊系統共存,醫療行業存在着明顯的 " 信息孤島 " 現象,而這也是醫療行業數字化轉型速度緩慢的重要原因所在。AI 大模型在醫療領網域擁有廣闊的應用場景,随着 AI 大模型和醫療結合程度的加深,或将有助于推動醫療行業朝着更加數字化、智能化的方向發展。
百度、騰訊 " 水到渠成 "
在這波 AI 大模型浪潮中,跑在最前面的無疑是互聯網大廠,以百度、阿裏、騰訊為代表的互聯網大廠都相繼推出了自家的 AI 大模型產品,比如,百度的 " 文心一言 " 大模型、阿裏的 " 通義千問 " 大模型、騰訊的 " 混元 " 大模型。由于醫療行業被視為 AI 大模型落地的最佳領網域之一,醫療行業也掀起了一波大模型熱潮,許多互聯網大廠也推出了自己的醫療大模型產品。比如,百度發布了 " 靈醫大模型 "、騰訊則是推出了 " 騰訊醫療大模型 "。而互聯網大廠之所以能夠率先推出面向醫療行業的大模型產品,與其長時間的積累不無關系。
一方面,百度、騰訊都已經推出了自研的通用大模型產品,有研發大模型產品的經驗,這些經驗能夠為其專用的醫療大模型產品的推出提供借鑑和參考。長期以來,以百度、騰訊為代表的互聯網大廠都格外關注人工智能領網域,并且在該領網域持續深耕,積累了深厚的技術實力,而這些都為其推出 AI 大模型產品打下了堅實基礎,也助推了其垂直大模型產品的出現。
比如,百度、騰訊等互聯網大廠就在自研的通用大模型的基礎上,引入專業的醫學數據,對大模型進行訓練和微調,最終推出面向醫療行業的專用大模型產品。具體來看,騰訊的醫療大模型就是基于騰訊全鏈路自研混元大模型研發的;百度的 " 靈醫 " 大模型的技術底座同樣來自于此前的文心一言大模型。
另一方面,百度、騰訊等互聯網大廠在醫療健康領網域有所布局,有行業數據的積累。一直以來,互聯網大廠都在積極拓展業務版圖,其中醫療健康領網域就是其重點布局的領網域之一。以百度為例,百度不僅推出了深耕醫療領網域的 AI 醫療品牌 " 靈醫智惠 ",還打造了能夠提供健康科普、在線問診等服務的一站式健康管理平台 " 百度健康 "。
正因如此,百度、騰訊等互聯網大廠積累下來了大量醫療數據,這些數據積累使其推出專業的醫療大模型產品成為可能。據了解,在模型訓練過程中,百度大健康事業群(HCG)先後投入了自有積累的超 1000 萬優質醫療問答數據、超 2000 萬多語種醫學專業知識、超 2 億用户每日醫療類搜索數據、超 5 億權威健康科普内容。無獨有偶,騰訊的醫療大模型加入了超過 285 萬醫療實體、1250 萬醫學關系、超 98% 醫學知識的知識圖譜和醫學文獻。
微脈、衞寧健康 " 乘勢而起 "
醫療大模型熱度正高,除了互聯網大廠頻頻布局之外,自然也少不了本行業玩家的參與,互聯網醫療企業同樣是落子不斷。具體來看,全病程管理平台微脈正式發布了其自主研發的健康管理領網域大語言模型應用—— CareGPT;衞寧健康則是正式推出了醫療領網域大模型—— WiNGPT。在互聯網醫療企業積極擁抱 AI 大模型背後,也并非毫無緣由。
一來,微脈、衞寧健康擁有豐富的醫療行業經驗,以及海量的醫療數據,能為其訓練醫療大模型奠定基礎。數據對于 AI 大模型的重要性可想而知,AI 大模型的能力之所以能夠不斷進化和提升,離不開數據的支撐。尤其是對行業大模型來説,行業數據更是格外重要。而無論是微脈,還是衞寧健康,都長期深耕于醫療健康領網域,有着專業的醫療知識庫。得益于此,微脈、衞寧健康都積累下來了海量的、高質量的醫療數據,這些數據無疑是大模型產品的優質訓練數據集,能夠幫助二者訓練出精準度更高、可靠性更強的醫療大模型產品。
據了解,微脈的 CareGPT 在訓練階段就以循證醫學為基礎,使用了目前最新版本臨床醫學指南、疾病診療模型、專家共識等超 10 億的醫學文本數據,以及百萬條微脈個案管理數據,形成專科專病管理的醫療健康知識庫,并投入超過 100 位個案管理師參與 RLHF 監督調試訓練。另一組數據顯示,在 2023 年 5 月,WiNGPT 訓練的數據量已達到 9720 項藥品知識、7200 餘項疾病知識、2800 餘項檢查檢驗知識、1100 餘份指南文檔,總訓練 Token 數達 37 億。
二來,微脈、衞寧健康的業務與醫療大模型有着天然的契合度,更容易實現醫療大模型的落地與應用,有望助推其業務的進一步發展。除了大模型產品的推出之外,後續的落地應用同樣是相當重要的一環。由于微脈、衞寧健康本身就是互聯網醫療企業,其業務開展也都圍繞着醫療健康方面,醫療大模型與其業務有着很高的契合度,更容易實現落地。
比如,CareGPT 就能對患者聊天内容進行分析,可以幫助患者自主進行初步的身體狀況篩查,實現分診導診的智能化輔助,提升患者管理的效率。随着醫療大模型產品能力的不斷進化,并且逐漸應用到具體場景中,醫療大模型也能夠為互聯網醫療企業業務賦能,有望為其帶來新的業務增長點。
醫療大模型這條路還很遠
得益于人工智能技術的蓬勃發展,以及相關技術在醫療場景的逐漸應用,AI 醫療正在逐漸成為現實,醫療大模型的出現更是有望為醫療行業注入新的發展動力。當前,AI 大模型浪潮席卷而來,無論是互聯網大廠,還是互聯網醫療企業,都不願意錯失這個機會,紛紛乘浪而上。只是,必須要説的是,醫療大模型雖藴含着機遇,但同樣有着門檻。
一是,醫療大模型容錯率低,廠商們還需要不斷打磨產品。不同于其他行業,醫療行業有着很強的嚴肅性和專業性,可以説是不容有失,這也就意味着醫療大模型產品的容錯率極低,這就對廠商們提出了更高的要求。為了避免此類情況的發生,發力于此的廠商們必須保持審慎的态度,不斷打磨產品本身,以提升大模型產品的能力。
二是,醫療數據的隐私性高、數據處理難度大,醫療大模型的訓練不易。眾所周知,由于醫療數據往往涉及患者本身,因此具備很高的私密性,但大模型能力的訓練又需要大量數據為支撐,對研發醫療大模型的廠商來説,數據的獲得有着比較高的難度。不僅如此,由于數據标準不一,醫療行業的數據處理同樣難度較高,需要醫療大模型廠商多下功夫。
就目前情況來看,醫療大模型產品的誕生或許能夠為醫療行業帶來發展新機遇,幫助企業降本增效、為患者帶來更加優質的就醫體驗,但由于醫療大模型尚處于剛剛開始發展的階段,難關同樣有很多,需要廠商們去跨越。總而言之,醫療大模型產品的推出并不意味着結束,反而是新的起點,無論是互聯網大廠,還是互聯網醫療企業,都不能掉以輕心,這場競賽仍持續進行中。