大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 财经

AI看病比医生强?哈佛、斯坦福最新研究:o1-preview模型诊断准确率高达近80%

2024-12-25 简体 HK SG TW

今天小编分享的财经经验:AI看病比医生强?哈佛、斯坦福最新研究:o1-preview模型诊断准确率高达近80%,欢迎阅读。

哈佛大学、斯坦福大学、微软等顶尖学府和机构的多名医学、AI 专家日前联合开展了一项研究,对 OpenAI 旗下 o1-preview 模型在医学推理任务的表现进行了综合评估。

结果显示,o1-preview 模型在多项任务中表现出卓越的能力,在鉴别诊断生成(判断 " 这是什么病 ")、诊断临床推理(判断 " 这最可能是什么病 ")和管理推理(判断 " 应该如何治疗 ")方面,甚至达到了超人类水平。

目前,AI 技术在一些医院已初步展开应用,覆盖了分诊导诊、预先问诊、病历生成等多种场景。

清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及告诉《每日经济新闻》记者,"AI 在医疗领網域的应用难度较大,但会逐步渗透到一些典型场景中。"

图片来源:论文《大型语言模型在医学推理任务中的超人表现》

o1-preview 诊断准确率高达近 80%

该研究通过五个实验对 o1-preview 模型进行了综合能力评估,包括鉴别诊断生成、诊断推理、分诊鉴别诊断、概率推理和管理推理能力。

这些实验由医学专家使用经过验证的心理测量方法进行评估,旨在将 o1-preview 的性能与以前的人类对照组和早期大型语言模型基准进行比较。结果表明,与医生、已有的大语言模型相比,o1-preview 在鉴别诊断、诊断临床推理和管理推理的质量都有明显提高。

在评估 o1-preview 鉴别诊断生成的能力时,研究人员使用了发表在国际顶级医学期刊《新英格兰医学杂志》(NEJM)上的临床病理会议(CPC)病例。结果表明,o1-preview 在鉴别诊断中的准确率高达 78.3%。

值得注意的是,o1-preview 在 88.6% 的病例中得出了准确或非常接近准确的诊断结果,而 GPT-4 只有 72.9%。

此外,在 87.5% 的病例中,o1-preview 选择了恰当的检查项目;另在 11% 的病例中,两位医生均认为该模型所选检查方案是有效的;而在仅有的 1.5% 的病例中,其检查方案被两位医生认为是无效的。

为了进一步评估 o1-preview 的临床推理能力,研究人员使用了 NEJM Healer(一款在线工具,学习者可以通过与虚拟患者的互动来提升他们的临床推理和诊断技能)中的 20 个临床病例。

结果表明,o1-preview 的表现明显优于 GPT-4、主治医师和住院医师。在 80 例病例中,有 78 例获得了完美的 R-IDEA 评分。R-IDEA 评分是一个 10 分制量表,用于评估临床推理能力。

此外,研究人员还通过灰质管理案例和标志性诊断案例评估了 o1-preview 的管理和诊断推理能力。

在灰质管理案例中,o1-preview 得分明显高于 GPT-4、使用 GPT-4 的医生和使用传统资源的医生。在标志性诊断案例中,o1-preview 的性能与 GPT-4 相当,但优于使用 GPT-4 或传统资源的医生。

研究仍有局限性

研究表明,大语言模型如 o1-preview 在辅助医生进行诊断决策方面具有巨大潜力。然而,该项研究也具有部分局限性。

首先,o1-preview 有 " 啰嗦 " 倾向,而这种特性可能会让其在试验中取得更高分。

其次,目前的研究只反映了模型性能,但现实中离不开人机互動。人机互動对开发临床决策辅助工具至关重要,下一步应该确定大语言模型(如 o1-preview)能否增强人机互動。人类与计算机之间的互動或许是不可预测的,表现良好的模型与人类互動中甚至可能出现能力退化的情况。

第三,研究只考察了临床推理的五个方面,但目前已知有几十个其它任务可能对实际的临床护理有更大影响。

第四,研究案例集中在内科,并不能代表所有医疗实践。此外,研究在设计上也未将诊断类型、患者个体差异以及就医地点的不同等因素纳入考量。

研究人员强调,医学领網域诊断推理的基准正迅速接近饱和状态,因此亟需开发更具挑战性和贴近实际应用的评估手段。他们呼吁在真实的临床环境中测试这些技术,并为临床医生与人工智能的合作创新做好准备。

专家:AI 将逐步渗透医疗典型场景

目前,AI 技术在一些医院已初步展开应用,覆盖了分诊导诊、预先问诊和病历生成等多种场景。

美国耶鲁大学教授威廉 · 基西克(WiliamKissick)提出了著名的 " 医疗不可能三角 " 理论。这个理论指出,在既定的约束条件下,一个国家的医疗系统很难同时实现提高医疗服务质量、增加医疗服务可及性和降低医疗服务的价格。现实中的医疗困境,如 " 看病难、看病贵 " 以及不断出现的医患矛盾,正是传统医疗体系 " 医疗不可能三角 " 的具体表现。

图片来源:甲子光年智库

而医疗 AI 的兴起可能为解决这一难题提供新的答案。AI 赋能下的医疗服务可以大规模接待患者,实现随时随地的无限供应,并且其水平会随着持续训练迅速提升,已经达到了具有 10 至 15 年临床经验医生的水准,且每月还在不断进步。

清华大学电子工程系长聘教授、清华大学精准医学研究院临床大数据中心共同主任吴及在接受《每日经济新闻》记者采访时指出,相比自动化、智能设备等场景,AI 在医疗场景的应用更为复杂。

吴及提到,医疗本质上是人对人的服务,这一过程非常复杂,医学诊疗不仅包含理论和科学,还涉及大量经验,很多时候依赖专家的直觉。因此,"AI 在医疗领網域的应用难度较大,但会逐步渗透到一些典型场景中。"

据市场研究机构 Global Market Insights 的统计,2023 年,医疗保健领網域的 AI 市场规模价值为 187 亿美元,预计到 2032 年将达到 3171 亿美元,2024 年至 2032 年的复合年增长率为 37.1%。

每日经济新闻

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們