大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Transformer作者对话Jeff Dean

2025-02-13 简体 HK SG TW

今天小编分享的科学经验:Transformer作者对话Jeff Dean,欢迎阅读。

谷歌两位大佬回应一切:从 PageRank 到 AGI 的 25 年。

现任首席科学家Jeff Dean、出走又回归的 Transformer 作者Noam Shazeer,与知名播客主持人 Dwarkesh Patel 展开对谈。

视频刚发几个小时,就有 20 万 + 网友在线围观。

两人都是谷歌远古员工,经历了从 MapReduce 到 Transformer、MoE,他们发明了很多改变整个互联网和 AI 的关键技术。

Noam Shazeer 却谈到当初入职谷歌只是为了捞一笔就跑,没想到成了改变世界的那个人。

在两个多小时的谈话中,他们透露了 AI 算力的现状:

单个数据中心已经不够了,Gemini 已经在跨多个大城市的数据中心异步训练。

也对当下最流行的技术趋势做了探讨:

推理算力 Scaling 还有很大空间,因为与 AI 对话比读书仍然便宜 100 倍

未来的模型架构会比 MoE 更灵活,允许不同的团队独立开发不同的部分

……

网友们也在边听边 po 发现的亮点:

比如在内存中存储一个巨大的 MoE 模型的设想。

以及 " 代码中的 bug 可能有时会对 AI 模型有正面影响 "。

随着规模的扩大,某些 bug 正是让研究人员发现新突破的契机。

推理算力 Scaling 的未来

很多人觉得 AI 算力很贵,Jeff Dean 不这么认为,他用读书和与 AI 讨论一本书来对比:

当今最先进的语言模型每次运算的成本约为 10-18 美元,这意味着一美元可以处理一百万个 token。

相比之下,买一本平装书的成本大约相当于每 1 美元买 1 万个 token(单词数换算成 token)。

那么,与大模型对话就比读书便宜约 100 倍。

这种成本优势,为通过增加推理算力来提升 AI 的智能提供了空间。

从基础设施角度来看,推理时间计算的重要性增加可能会影响数据中心规划。

可能需要专门为推理任务定制硬體,就像谷歌初代 TPU一样,它最初是为推理的目的设计,后来才被改造为也支持训练。

对推理的依赖增加可能意味着不同的数据中心不需要持续通信,可能导致更分布式、异步的计算。

在训练层面,Gemini 1.5 已经开始使用多个大城市的计算资源,通过高速的网络连接将不同数据中心中的计算结果同步,成功实现了超大规模的训练。

对于大模型来说,训练每一步的时间可能是几秒钟,因此即使网络延迟有 50 毫秒,也不会对训练产生显著影响。

到了推理层面,还需要考虑任务是否对延迟敏感。如果用户在等待即时响应,系统需要针对低延迟性能进行优化。然而,也有一些非紧急的推理任务,比如运行复杂的上下文分析,可以承受更长的处理时间。

更灵活和高效的系统可能能够异步处理多个任务,在提高整体性能的同时最大限度地减少用户等待时间。

此外,算法效率的提升,如使用较小的草稿(Draft)模型,可以帮助缓解推理过程中的瓶颈。在这种方法中,较小的模型生成潜在的 token,然后传递给较大的模型进行验证。这种并行化可以显著加快推理过程,减少一次一个 token 的限制。

Noam Shazeer 补充,在进行异步训练时,每个模型副本会独立进行计算,并将梯度更新发送到中央系统进行异步套用。虽然这种方式会使得模型参数略有波动,理论上会有影响,但实践证明它是成功的。

相比之下,使用同步训练模式能提供更加稳定和可重复的结果,这是许多研究者更加青睐的模式。

在谈到如何保证训练的可重复性时,Jeff Dean 提到一种方法是记录操作日志,尤其是梯度更新和数据批次的同步记录。通过回放这些操作日志,即使在异步训练的情况下,也能够确保结果的可重复性。这种方法可以让调试变得更加可控,避免因为环境中的其他因素导致结果不一致。

Bug 也有好处

顺着这个话题,Noam Shazeer 提出一个有意思的观点:‍

训练模型时可能会遇到各种各样的 bug,但由于噪音的容忍度,模型可能会自我调整,从而产生未知的效果。

甚至有的 bug 会产生正面影响,随着规模的扩大,因为某些 bug 在实验中可能会表现出异常,让研究人员发现新的改进机会。

当被问及如何在实际工作中调试 bug 时,Noam Shazeer 介绍他们通常会在小规模下进行大量实验,这样可以快速验证不同的假设。在小规模实验中,代码库保持简单,实验周期在一到两个小时而不是几周,研究人员可以快速获得反馈并做出调整。

Jeff Dean 补充说,很多实验的初期结果可能并不理想,因此一些 " 看似不成功 " 的实验可能在后期仍然能够为研究提供重要的见解。

与此同时,研究人员面临着代码复杂性的问题:虽然不断叠加新的改进和创新是必要的,但代码的复杂性也会带来性能和维护上的挑战,需要在系统的整洁性和创新的推进之间找到平衡。

未来模型的有机结构

他们认为,AI 模型正在经历从单一结构向模块化架构的重要转变。

如 Gemini 1.5Pro 等模型已经采用了专家混合(Mixture of Expert)架构,允许模型根据不同任务激活不同的组件。例如在处理数学问题时会激活擅长数学的部分,而在处理影像时则会激活专门处理影像的模块。

然而,目前的模型结构仍然较为僵化,各个专家模块大小相同,且缺乏足够的灵活性。

Jeff Dean 提出了一个更具前瞻性的设想:未来的模型应该采用更有机的结构,允许不同的团队独立开发或改进模型的不同部分。

例如,一个专注于东南亚语言的团队可以专门改进该领網域的模块,而另一个团队则可以专注于提升代码理解能力。

这种模块化方法不仅能提高开发效率,还能让全球各地的团队都能为模型的进步做出贡献。

在技术实现方面,模型可以通过蒸馏(Distillation)技术来不断优化各个模块。这个过程包括将大型高性能模块蒸馏为小型高效版本,然后在此基础上继续学习新知识。

路由器可以根据任务的复杂程度,选择调用合适规模的模块版本,从而在性能和效率之间取得平衡,这正是谷歌 Pathway 架构的初衷。

这种新型架构对基础设施提出了更高要求。它需要强大的 TPU 集群和充足的高带宽内存(HBM)支持。尽管每个调用可能只使用模型的一小部分参数,但整个系统仍需要将完整模型保持在内存中,以服务于并行的不同请求。

现在的模型能将一个任务分解成 10 个子任务并有 80% 的成功率,未来的模型能够将一个任务分解成 100 或 1000 个子任务,成功率达到 90% 甚至更高。

"Holy Shit 时刻 ":准确识别猫

回过头看,2007 年对于大模型(LLMs)来说算得上一个重要时刻。

当时谷歌使用 2 万亿个 tokens 训练了一个 N-gram 模型用于机器翻译。

但是,由于依赖磁盘存储 N-gram 数据,导致每次查询需大量磁盘 I/O(如 10 万次搜索 / 单词),延迟非常高,翻译一个句子就要 12 小时。

于是后来他们想到了内存压缩、分布式架构以及批处理 API 优化等多种应对举措。

内存压缩:将 N-gram 数据完全加载到内存,避免磁盘 I/O;

分布式架构:将数据分片存储到多台机器(如 200 台),实现并行查询;

批处理 API 优化:减少单次请求开销,提升吞吐量。

过程中,计算能力开始遵循摩尔定律在之后逐渐呈现爆发式增长。

从 2008 年末开始,多亏了摩尔定律,神经网络真正开始起作用了。

那么,有没有哪一个时刻属于 "Holy shit" 呢?(自己都不敢相信某项研究真的起作用了)

不出意外,Jeff 谈到了在谷歌早期团队中,他们让模型从油管视频帧中自动学习高级特征(如识别猫、行人),通过分布式训练(2000 台机器,16000 核)实现了大规模无监督学习。

而在无监督预训练后,模型在监督任务(ImageNet)中性能提升了 60%,证明了规模化训练和无监督学习的潜力。

接下来,当被问及如今谷歌是否仍只是一家信息检索公司的问题,Jeff 用了一大段话表达了一个观点:

AI 履行了谷歌的原始任务

简单说,AI 不仅能检索信息,还能理解和生成复杂内容,而且未来想象力空间巨大。

至于谷歌未来去向何方," 我不知道 "。

不过可以期待一下,未来将谷歌和一些开源源代码整合到每个开发者的上下文中。

换句话说,通过让模型处理更多 tokens,在搜索中搜索,来进一步增强模型能力和实用性。

当然,这一想法已经在谷歌内部开始了实验。

实际上,我们已经在内部代码库上为内部开发人员进行了关于 Gemini 模型的进一步培训。

更确切的说法是,谷歌内部已经达成25% 代码由 AI 完成的目标。

在谷歌最快乐的时光

有意思的是,这二位还在对话中透露了更多与谷歌相关的有趣经历。

对 1999 年的 Noam 来说,本来没打算去谷歌这样的大公司,因为凭直觉认为去了也可能无用武之地,但后来当他看到谷歌制作的每日搜索量指数图表后,立马转变了想法:

这些人一定会成功,看起来他们还有很多好问题需要解决

于是带着自己的 " 小心思 " 就去了(主动投了简历):

挣一笔钱,然后另外开开心心去搞自己感兴趣的 AI 研究

而加入谷歌后,他就此结识了导师 Jeff(新员工都会有一个导师),后来两人在多个项目中有过合作。

谈到这里,Jeff 也插播了一条他对谷歌的认同点:

喜欢谷歌对 RM 愿景(响应式和多模态,Responsive and Multimodal)的广泛授权,即使是一个方向,也能做很多小项目。

而这也同样为 Noam 提供了自由空间,以至于当初打算 " 干一票就跑 " 的人长期留了下来。

与此同时,当话题转向当事人 Jeff 时,他的一篇关于平行反向传播的本科论文也被再次提及。

这篇论文只有 8 页,却成为 1990 年的最优等本科论文,被明尼苏达大学图书馆保存至今。

其中,Jeff 探讨了两种基于反向传播来平行训练神经网络的方法。

模式分割法(pattern-partitioned approach):将整个神经网络表示在每一个处理器上,把各种输入模式划分到可用的处理器上;

网络分割法(network-partitioned approach)流水线法(pipelined approach):将神经网络的神经元分布到可用的处理器上,所有处理器构成一个相互通信的环。然后,特征通过这个 pipeline 传递的过程中,由每个处理器上的神经元来处理。

他还构建了不同大小的神经网络,用几种不同的输入数据,对这两种方法进行了测试。

结果表明,对于模式分割法,网络大、输入模式多的情况下加速效果比较好。

当然最值得关注的还是,我们能从这篇论文中看到 1990 年的 " 大 " 神经网络是什么样:

3 层、每层分别 10、21、10 个神经元的神经网络,就算很大了。

论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff 还回忆道,自己测试用的处理器,最多达到了 32 个。

(这时的他应该还想不到,12 年后他会和吴恩达、Quoc Le 等人一起,用 16000 个 CPU 核心,从海量数据中找出猫。)

不过 Jeff 坦言,如果要让这些研究成果真正发挥作用," 我们需要大约 100 万倍的计算能力 "。

后来,他们又谈到了 AI 的潜在风险,尤其是当 AI 变得极其强大时可能出现的反馈循环问题。

换句话说,AI 通过编写代码或改进自身算法,可能进入不可控的加速改进循环(即 " 智能爆炸 ")。

这将导致 AI 迅速超越人类控制,甚至产生恶意版本。就像主持人打的比方,有 100 万个像 Jeff 这样的顶尖程式员,最终变成 "100 万个邪恶的 Jeff"。

(网友):新的噩梦解锁了哈哈哈!

最后,谈及在谷歌最快乐的时光,二人也分别陷入回忆。

对 Jeff 来说,在谷歌早期四五年的日子里,最快乐的莫过于见证谷歌搜索流量的爆炸式增长。

建造一个如今 20 亿人都在使用的东西,这非常不可思议。

至于最近,则很开心和 Gemini 团队构建一些,即使在 5 年前人们都不敢相信的东西,并且可以预见模型的影响力还将扩大。

而 Noam 也表达了类似经历和使命,甚至喜滋滋 cue 到了谷歌的 " 微型厨房区網域 "。

据介绍,这是一个大约有 50 张桌子的特别空间,提供咖啡小吃,人们可以在这里自由自在闲聊,碰撞想法。

一说到这个,连 Jeff 也手舞足蹈了(doge):

Okk,以上为两位大佬分享的主要内容。

参考链接 :

[ 1 ] https://x.com/JeffDean/status/1889780178983031035

[ 2 ] https://x.com/dwarkesh_sp/status/1889770108949577768

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們