今天小編分享的科技經驗:谷歌AI“醫生”态度更好,診斷更準确,歡迎閱讀。
研究人員表示,他們的 AI 系統或推動醫療資源的普及。
一個基于谷歌大型語言模型的對話機器人能收集模拟患者的病史,并給出各種診斷。來源:Tero Vesalainen/Getty
一個被訓練學習 " 看病 " 的人工智能(AI)系統在與模拟病人交談時可媲美乃至超過人類醫生的表現,并能根據患者病史給出可能的診斷結果 [ 1 ] 。
這個對話機器人基于谷歌(Google)開發的大型語言模型(LLM),在呼吸道疾病和心血管疾病等方面的診斷比有執業資格的初級保健醫師更加準确。與人類醫生相比,該機器人在醫療對話中能獲取同等量的信息,而且更有同理心。
" 據我們所知,這是首個以診斷對話和獲取病史為設計目标的對話式 AI 系統。"Google Health 的臨床研究科學家、該研究 [ 1 ] 共同作者 Alan Karthikesalingam 說。該研究 1 月 11 日發布于 arXiv 預印本伺服器,尚未經過同行評審。
該對話機器人名為 Articulate Medical Intelligence Explorer(簡稱 AMIE),尚處于純實驗階段。它還未在有真實健康問題的人群中測試過,只在經過訓練患者模仿者中測試過。Karthikesalingam 說:" 我們希望大家能謹慎謙遜地解讀結果。"
即使該機器人距離臨床應用仍很遠,但作者認為,它最終或能推動醫療護理的普及。這個工具能作為助手,但不應取代病人與醫生的交流,哈佛大學醫學院内科醫生 Adam Rodman 說," 醫療絕不是收集信息這麼簡單——而是關于人與人的關系。"
學習幹 " 細活 "
意圖将 LLM 用于醫療領網域的開發者很少研究過這類系統是否能模仿醫生采集患者病史的能力,并在此基礎上做出診斷。醫學生經過長年累月的訓練才具備這種能力,Rodman 說," 這是醫生需要掌握的最重要也最難的技能之一。"
開發者面對的一個挑戰是缺少作為訓練數據的真實世界醫療對話,位于加州山景城的 Google Health 的 AI 研究科學家、該研究共同作者 Vivek Natarajan 說道。為了克服這個挑戰,研究團隊設計了一種方法,讓這個對話機器人用它自己的 " 對話 " 進行訓練。
研究團隊先用現成的真實世界數據對基礎 LLM 進行了初輪微調,這類數據包括電子病歷和醫療對話的轉錄文本。為進一步訓練該模型,團隊再讓這個 LLM 扮演有特定疾病的患者和想了解病史并做出診斷的富有同情心的醫生。
該團隊還讓這個模型扮演了另一個角色:一個給醫患對話打分并提出改進意見的評委。這些評語會被用來進一步訓練這個 LLM,并生成改進後的對話。
為測試該系統,研究團隊招募了訓練後能模拟病人的 20 人,讓他們同時與 AMIE 和 20 名有執業資格的醫師進行基于文字的醫療咨詢,并且不知道和他們對話的是人還是機器。
這些模仿者模拟了 149 種臨床情景,并被要求對體驗進行評價。一組專家也對 AMIE 和人類醫師的表現進行打分。
AMIE 得高分
在測試的全部 6 個醫療專科中,該機器人的診斷準确率均媲美或超越了人類醫生。在 26 個評估對話質量的指标中,該機器人有 24 個指标的得分高于人類醫生,包括禮貌程度,對疾病和療法的解釋,給人感覺誠實,以及表達關心和關注。
Karthikesalingam 說:"這絕不是說語言模型在了解病史方面比醫生要強。" 他指出,研究中的初級保健醫生可能并不習慣和病人用文字溝通,這會影響他們的表現。
而 LLM 在這方面具有天然的優勢,能快速給出結構清晰而具體的回答,Karthikesalingam 說,這讓它們能不知疲倦地照顧病人的需求。
" 一視同仁 " 的對話機器人
他說,該研究接下來的重要一步是開展更具體的研究,分析可能存在的偏見,同時确保該系統能同等對待不同人群。這個谷歌團隊已經在思考,如果在真正有健康問題的人群中測試該系統需要滿足哪些倫理要求。
杜克新加坡國立大學醫學院臨床 AI 科學家 Daniel Ting 也認為,對該系統進行偏見測試至關重要,這樣才能保證算法不會區别對待訓練數據中代表性不高的族群。
對話機器人用戶的隐私也是需要考量的重要問題,Ting 說," 對于現在使用的很多商業大型語言模型平台來說,我們仍不知道數據究竟儲存在那裡,也不知道這些數據是如何被分析的。"