大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Bengio团队Nature发文:四个维度讲AI for Science,还讨论了AI跨界核心挑战

2023-08-14 简体 HK SG TW

今天小编分享的科学经验:Bengio团队Nature发文:四个维度讲AI for Science,还讨论了AI跨界核心挑战,欢迎阅读。

最近,Yoshua Bengio 带领团队展示了一场人工智能十年跨界秀。

从数据收集到模型构建,从实验设计到过程控制,AI 跨界正在改变科学研究方式,成为科学发现引擎。

尽管科学实践因科学研究阶段而异,但 AI 的发展跨越了传统上孤立的学科。

例如在粒子物理实验中,每秒产生的海量数据难以处理和存储,AI 模型可以通过异常检测算法在实时流中找出罕见事件,大大减少存储压力。

在生物信息学领網域,AI 可以给海量未标注的基因序列赋予功能注释,帮助后续模型的训练。

AI 正赋能众多科学领網域的研究发现,融入科学发现的假设形成、实验设计、数据收集和分析各个阶段。

在 "Scientific discovery in the age of artificial intelligence" 这篇 Yoshua Bengio 领队的论文中,研究人员详解了自监督学习、几何深度学习、生成式人工智能等技术在科学研究中的应用,并提出了目前 AI 跨界仍存在的核心问题,目前该论文已刊于 Nature 综述文章。

来看大佬如何总结 AI for Science。

十年科学发现中 AI 的身影

在这篇论文中,研究人员从 AI 辅助的科学研究数据收集和整理、学习有意义的科学数据表示、使用 AI 生成科学假说、AI 驱动的实验和模拟几个方面讲述了近年来 AI 在科学研究中的应用。

AI 辅助的科学研究数据收集和整理

科学发现和理论的形成基于数据的收集、转化和理解,过去十年 AI 在数据的选择、标注、生成、精化等方面得到了广泛应用。

在数据选择(Data selection)方面,随着科学实验中收集的数据集规模和复杂性不断增加,科学研究越来越依赖实时处理和高性能计算来选择性地存储和分析数据。

一个典型案例就是粒子碰撞实验,每秒将生成超 100TB 的数据,这给数据传输和存储带来巨大挑战。

在这类物理实验中,超过 99.99% 的原始数据都属于背景事件,需要实时检测并丢弃。

为了识别用于科学研究的罕见事件,深度学习方法取代了预编程的硬體事件触发器,而是使用算法搜索异常信号,并检测出可能被忽略的罕见现象。

这种无监督方法不需要标注样本,已被广泛应用在物理、神经科学、地球科学等领網域。

在数据标注(Data annotation)方面,训练监督学习模型需要大量标注过的数据集来提供监督信息,但是科研数据的标注工作非常耗时耗力。

AI 的加入提供了用半监督学习方法自动标注大规模无标注数据集的选择 :

( 1 ) 伪标记 ( Pseudo-labelling ) :使用预训练模型为无标注样本生成伪标签,然后用这些伪标签来训练后续预测模型。

( 2 ) 标签传播 ( Label propagation ) :基于特征嵌入构建样本相似图,然后将已有标签扩散到无标注样本上。

( 3 ) 主动学习 ( Active learning ) :识别人类标注的最有信息量的数据点,或者确定要执行的最有信息量的实验。

在数据生成(Data generation)方面,提高训练数据的质量、多样性和规模可以改善深度学习的性能。

文中提到了两种主要的合成数据增强方法 :

( 1 ) 自动数据增强:手动设计或用增强学习方法发现自动数据增强策略。

( 2 ) 深度生成模型:可以学习底层数据分布,然后从优化的分布中采样新的训练点。

生成对抗网络 ( GAN ) 已被证明对科研影像合成有益,可以合成各领網域的逼真影像。

此外,概率编程,用计算机程式表达数据生成模型,是一种新兴的可编程生成建模方法。

目前,生成数据已被广泛应用于粒子物理、病理切片、X 光、MRI、材料微结构、蛋白功能等领網域。

在数据精化(Data refinements)方面,超高分辨率激光器等高精度仪器可以直接或间接测量真实世界对象,产生高度准确的数据。

使用 AI 技术可以显著提高测量分辨率,减少噪声、消除误差。

例如,深度卷积网络可以将质量较差的时空分辨率低的数据转换为高质量、超分辨率和结构化的影像。

去噪自编码器可以将高维输入数据投影到更紧凑的基本特征表示中,变分自编码器(VAE)通过潜在自编码学习随机表示,保留了基本数据特征,同时忽略了非基本的变化因素。

在科学实验中应用的例子包括可视化时空区網域,如黑洞、捕捉物理粒子碰撞、提高活细胞影像的分辨率等。

学习有意义的科学数据表示

深度学习能够在不同抽象层次上提取科学数据的有意义表示,并通过端到端学习来优化这些表示用于指导研究。

优质的表示应简洁并保留尽可能多的信息。科学上有意义的表示应具有紧凑性、可区分性、可解耦性以及对下游任务的泛化能力。

研究人员介绍了三种满足这些要求的新兴策略:几何先验、自监督学习和语言建模。

1、几何先验

几何先验的应用能够有效地捕捉数据的几何和结构特征,这在科学领網域尤为重要。

对称性是其中的一个关键概念,可以用不变性和等变性来描述,用于表示数学函数在一组变换下的行为规律。

比如一些重要的结构属性,像分子系统的二级结构、溶剂可及性、残基紧凑性和氢键模式等,在空间方向上是不变的。

在科学影像分析中,对象在影像中平移时不会改变,这意味着影像分割掩码是平移等变的,因为它们在平移输入像素时等效地变化。

通过将对称性等因素纳入模型中,可以改善在少标注数据集下的 AI 应用。通过增加训练样本,可以改进对于与模型训练过程中遇到的输入显著不同的外推预测。

图神经网络已成为在具有底层几何和关系结构的数据集上进行深度学习的主要方法之一。

几何深度学习显式利用局部化的图信息或变换群信息,通过神经消息传递算法学习关系模式。

2、自监督学习

在标注数据不足时,仅依赖监督学习是不够的,利用无标注数据可以提高模型性能和学习能力。

自监督学习使用无标注数据来学习一般特征,主要策略包括 :

预测影像的遮挡区網域

预测视频的前后帧

对比学习使模型区分相似和不相似数据点

自监督学习可以预训练模型抓取大规模无标注数据的特征,然后在小规模标注数据上微调。

3、语言建模

语言建模是一种流行的自监督学习方法,可以用于学习自然语言和生物序列的特征。

在训练过程中,主要目标是预测序列中的下一个 token,而在基于掩码的训练中,自监督任务是使用双向序列上下文来恢复序列中的掩码 token。

原子或氨基酸的排列类似于字母组成单词和句子,用于定义分子和生物功能的结构。蛋白质语言模型可以编码氨基酸序列以捕捉其结构和功能特性,并评估病毒变异的进化适应性。

这些表示方法可以在各种任务中传递应用,包括序列设计和结构预测。在处理生物化学序列时,化学语言模型能够有效地探索广阔的化学空间,用于预测性质、计划合成过程以及探索化学反应的可能性。

说到这里,就不得不提 Transformer 架构,它能够通过灵活地建模任意 token 对之间的互動,从而处理 token 序列,超越了使用循环神经网络进行序列建模的早期尝试。

在自然语言处理领網域,Transformer 已占据主导地位,并成功应用于地震信号检测、DNA 和蛋白质序列建模、模拟序列变异对生物功能的影响、符号回归等系列问题。

使用 AI 生成科学假说

可检验的假设是科学发现的核心,它们可以来源于数学中的符号表达式、化学中的分子、生物学中的基因变异……

但提出这样一种有意义的假设可能需要漫长的时间,正如 Johannes Kepler,花费了四年时间分析恒星和行星数据,才得出了一个能发现行星运动定律的假设。

AI 可以用以下几种方式帮助提出科学假说 :

( 1 ) 黑箱预测器:高通量快速筛选候选假说,选择有价值的进行后续验证。

( 2 ) 导航组合假说空间:使用强化学习评估每次搜索的回报,聚焦在最有前景的假说要素上。

( 3 ) 优化可微假说空间:将离散假说空间映射到连续可微空间进行优化。

这些 AI 方法为科学假说的生成、评价和选择提供了强有力的新工具。

AI 驱动的实验和模拟

通过实验评估科学假设对于科学发现至关重要,但实验成本高昂。

AI 技术可以优化实验的参数設定、步骤设计等,减少不必要的试验,提高资源利用效率。

强化学习可以根据实时反馈动态调整实验方向,最大化实验成功率和安全性。

计算模拟可以探索实际难以实现的情况,补充实验。但是依赖于人为設定的简化参数和启发式方法,精度和效率存在局限。

然而,随着深度学习的出现,通过识别和优化假设进行有效测试,以及使计算机模拟能够将观察结果与假设联系起来,这些问题正被解决。

这些 AI 驱动的实验优化和计算模拟方法,已经在量子物理、化学合成、聚变反应堆控制等领網域展现出价值。

AI 跨界面临重大挑战

值得一提的是,文中还讨论了 AI 在科学发现中面临的挑战。

人工智能系统可以成为科学家发现新知识的重要助手,但也存在潜在的安全隐患。

例如,科学数据存在不完整、偏差等问题,需要规范化;还需要考虑数据的可访问性、隐私等。模型和数据的标准化也很必要。

其次,分布偏移是一个核心问题,需要增强模型的泛化能力。处理多模态科学数据仍有挑战,如何系统地整合科学知识和原理也需要进一步探索,增强模型的解释性和可信度亦很重要。

此外,AI 专业人才短缺和计算资源需求巨大,需要产学界进一步合作,科学家需要掌握 AI 的适用性,还需建立伦理审查流程。

研究人员认为:

AI 工具的错误应用和对其结果的错误解读可能会产生重大的负面影响。广泛的应用范围使这些风险变得更加复杂。

然而,人工智能的滥用不仅仅是一个技术问题,还取决于领导人工智能创新和投资人工智能实施的动机。建立道德审查流程和负责任的实施策略至关重要,包括对人工智能的范围和适用性进行全面审查。

团队介绍

除了 Yoshua Bengio 带队外,三位华人一作也格外引人注目,他们分别是:

Hanchen Wang

斯坦福大学 CS 和 Genentech 联合博士后研究员,剑桥大学 ML 博士学位。

Tianfan Fu

伊利诺伊大学香槟分校计算机科学系博士后研究员,佐治亚理工学院计算科学与工程系博士学位。

Yuanqi Du

康奈尔大学计算机科学博士研究生,2021 年获乔治梅森大学计算机科学学士学位。

传送门:https://www.nature.com/articles/s41586-023-06221-2(论文链接)

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們