大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

狂奔一年后,面壁者决心“破壁”

2024-12-22 简体 HK SG TW

今天小编分享的科技经验:狂奔一年后,面壁者决心“破壁”,欢迎阅读。

出品 | 虎嗅科技组

作者 | 王欣

编辑 | 苗正卿

头图 |《奥本海默》

" 世界上不需要超过 5 个或是几个大模型,我觉得这完全跟当年 IBM 的董事长的论调——世界不需要超过 5 台计算机是一模一样,是非常短视的。" 面壁首席科学家、清华⼤学长聘副教授刘知远对虎嗅表示," 我认为未来的大模型就像是 CPU 一样,无处不在。所以我们首先要做的是降低成本,让每个人有属于自己的若干个大模型来支持生活、学习和工作。"

这是近期中关村初冬的早晨。2024 中国人工智能大会 ( CCAI 2024 ) 像呈燎原之势的大模型产业切片,汇集了 AI 新锐企业和学者。此时距离刘知远在 CCAI 2024 端侧专题论坛发表 Densing Law 主题演讲,不足一小时。

在众多 AI 企业中,面壁从路线、模式甚至名字,都显得又些另类。当刘知远坐在我面前,这些另类似乎都找到了答案源头——他的身上,学者的儒雅和接地气的一面达到了奇妙的平衡比例。

巧合的是,在交流的前一天,llya 发表了预训练时代将会终结的判断,又撼动了一些从业者对于大模型和 AGI 的信心。

刘知远也观察到,目前国内已经有大模型公司放弃预训练。" 这种事情在历史任何时刻都会存在 ",就像 2000 年互联网泡沫破灭时,不坚定的参与者批量离场,"很多人看到大模型这个方向火,然后加入进来,这样的人,他一定会在遇到挫折的时候率先退场 。"

" 数据差不多耗尽了,接下来的确会面临,模型可持续训练的未来的发展瓶颈 ",但刘知远认为:" 通过强化学习或者合成数据依然可以制造更多数据,明年仍然还是快速发展的阶段。"

这一瓶颈是刘知远在一年前就预判到的问题:" 半年之后,国内一定有五六家可以把 GPT-4 水平的模型做出来,那还有必要做这个事情吗?"

从商业上考虑 " 投入了几千万,市面上五六个同类型的模型,你怎么能确保你的模型能卖得的比别人都好?"

因此一年前,脱胎于清华 NLP 实验室的面壁智能,就开始专注端侧模型的路线。

交流结束后,刘知远上台分享了近期团队的研究成果。正是 Scaling Law 遇到瓶颈后的 " 破壁之法 ",预测大模型发展的另一视角——大模型密度定律(Densing Law)—— 模型能力密度随时间呈指数级增长。

就像摩尔定律背后的核心其实是有效地提升芯片上的电路密度,而不是简简单单的芯片尺寸。大模型行业也有着和摩尔定律相似的规律,和芯片的电路密度类似,大模型的能力 " 密度 " 也在提升,这意味我们能用更少的参数实现相同的智能水平。

模型能力密度提升意味着——如果一个 4B 的模型能实现 40B 模型的效果,那么它能搭载运行的终端范围会大大拓宽,比如原来伺服器上的模型,就可以直接在手机上运行,它的应用范围也就拓宽了。

以下为虎嗅与刘知远一对一交流实录:

虎嗅:最近半年你关心的问题是什么?

刘知远:现在算力浪费现象严重,导致模型训练成本过高。历史上,IBM 曾预测全球仅需 5 台大型计算机,但如今我们有 13 亿台 PC、70 亿部手机和数百亿联网设备,以及 2000 亿个 CPU 在运行。有种说法是世界上不需要超过 5 个或是几个大模型,我觉得这完全跟当年 IBM 的董事长的论调一模一样,是非常短视的。我认为未来大模型应像 CPU 一样普及,让每个人都能拥有大模型来改善生活、学习和工作。因此,降低成本是关键,来让大模型达到信息革命 PC 机的时刻。(虎嗅注:密度定律表明,达到相同能力的模型参数指数递减,2023 年以来每 3.3 个月减少一半,相应模型推理速度提升一倍。例如,GPT-3.5 级模型在过去 20 月内 API 价格下降至 1/266.7,约 2.5 个月下降一倍。)

虎嗅:llya 最近表示预训练毫无疑问将会终结,训练模型需要的海量数据即将枯竭。你如何看待他的观点?

刘知远:我觉得他说了一部分的这个正确的事情,现在数据差不多耗尽了,可能接下来的确会面临,模型可持续训练的未来的发展瓶颈。因为所谓的 Scaling Law 有两个基本的支撑点,数据和算力。llya 主要还是强调的数据问题,但是其实我们会认为算力也是关键问题,随着这个模型变得越来越大,训练算力成本有限。如何支撑这个模型可以去有效 scale?所以我们会认为 llya 提出来的是合时宜的,解决方案还要探讨。

其实我们在去年的时候就意识到这个问题。

虎嗅:目前国内有公司已经陆续放弃预训练,你怎么看?

刘知远:大模型是去年才开始火的。所以我们会认为,很多看到这个方向火然后就加入进来,这样的人,他一定会在遇到挫折的时候率先退场。这是必然的。因为在历史上的任何的时刻都会存在这样的事情,就跟千禧年互联网兴起的时候,也有很多人被吸引想要参与,但是互联网泡沫破灭时,就会主动地或者被动地退出。

虎嗅:这可能跟明年哪些新的趋势有关系? 你对明年大模型发展的预判是什么?

刘知远:可以看到就是的,不管是比如说这个推理,还是说 Agent,还是说别的强化学习等等,就是包括 o1 他提到的各种各样,其实回归到本质的话,其实无非就是要想到某种办法,然后能够为这个模型来提供更多数据。

比如 AlphaGo 先从人类积累的数据来学习下起,所有的基础都学完后,就出现 AlphaZero 让下围棋的 Agent 跟自己下棋,来产生更多数据。

如果我们控制这个模型的参数规模不变,我们可以随着技术的发展,把更多能力放进去。也就是说模型的规模不变,但是模型的这个知识量密度在增加。所以我觉得面向未来其实仍然大有可为,明年一定还是快速发展的阶段。

这个过程其实就像是,科学技术的发展,来对抗这个世界的熵增的过程,就像芯片是要通过技术进步,来改善算力密集度,以更高的质量,更低的价格来达到相同的能力。

虎嗅:一年前是如何提前预判到行业目前现状的?为什么那时开始专注端侧?

刘知远:这个涉及到对技术的预判。就是在去年初的时候,ChatGPT 的横空出世,其实是让很多人震惊。因为大家都还不知道这个东西到底是怎么训练出来的。但是经过大家快速的研判和探索,实际上在去年的大概到 4 月份,已经大致找到了到底如何达到相同水平的路径。

我们那次判断是:国内是到 2023 年 12 月实现 GPT-3.5 水准的模型能力,差不多需要一年的时间。

事实证明我们的判断是对的,因此 2023 年 4 月份 GPT-4 发布时,我们预计国内一定会在 2024 年的六月份前做出 GPT-4 水平模型。

所以我现在想问你,如果你是我们这个团队的决策者,你发现一年后国内一定有五六家可以把 GPT-4 水平的模型做出来,那还有必要做这个事情吗?问题是在于 GPT-4 的模型能力,至少需要几千万美元的算力。

当然,技术上是可以做的,但你做出来之后,你怎么把这个钱给赚回来?你投了几千万。但市面上有五六个同类型的模型,你怎么能确保你的模型能卖的比别人都好?

也就是说在我们确保技术上可行的时候,得去看这件事情在商业是不是值回成本的一件事情。

所以我们会认为应该更加重视的是极大地去降低训练模型的成本,极大地提升用相同的成本训练出来的模型品质,所以那个时候我们坚持的是这样的事情。这件事情其实事前我们并没有那么多信心一定是对的,当然事后的话证明我们是对的。

虎嗅:你怎么看现在有公司也开始转向端侧了?

刘知远:是的,我觉得这是好事。这是理性的决定。因为你不走向端侧,那就说明你还没有做出理性的决定。

虎嗅:你觉得未来这样公司会越来越多吗?

刘知远:一定会。

虎嗅:经历过这一年之后,你的感受是什么?

刘知远:我觉得学到好多事情。因为我是作为清华的老师,去参与创业。我觉得这的确是一个大的时代,一定要抽身参与其中,但是这里面其实对我来讲有很多新鲜感受。

我们最近几个月其实一直在尝试着去总结说我们到底怎么办?后面的路怎么走?因为这件事情是充满不确定的。

llya 的判断出来后,很多人对 AGI 信心又撼动了。是不是 llya 说的就一定是对的?或是我说的就一定是对的?

这个世界本身就是充满非共识的。真正创新的东西才是推动科学发展的力量,所以其实我觉得还是要能够去寻找,历史上的一些蛛丝马迹的规律,来指导着我们往前走的方向。

我一直跟实验室的同学说要实事求是。不要因为你在这方向上取得了优势和一些积累,你就会认为这个方向就一直是对的。

我们团队其实从 2010 年开始,就在做自然语言处理,然后再到 2018 年从深度学习到大模型,其实我们应该算是最早做这个事情的。原因在于我会认为就是这个世界的趋势,它不以个人意志为转移,不会说因为你觉得这个技术有缺点,它就不会发展。该发生的一定会发生,我们要做的事情就是要去顺应事实,而且我们看得更前瞻,更前沿去做一下。

虎嗅:之前被斯坦福抄袭时,你的感受是什么?如何看待中美大模型发展差异?

刘知远:我觉得它可能算是一个偶然事件,本身对面也相当于只是一个学生团队,我个人倾向于不太会把这件事情当成有深刻含义的一件事情,我觉得如果放在宏大的历史上来去讲,就像是黄仁宇的《万历十五年》,就是通过那一个年份,来叙述整个明朝的衰败,所以其实众多的 case,会汇聚成一个大的趋势。

我们其实能清晰地看到,中国在过去的这十年、二十年的发展,其实是非常快速地在去成为这个世界上的,从追赶者到去原始创新的一个角色。

20 年前,大家都在说 copy to China。那又过了十年,到 2010 年的时候,那时中国的 AI 论文发表已经在国际上能够数得着,已经算是崭露头角,那个时候其实大家一般就很少说 copy to China,而是说,中国好像不太善于做技术创建,善于做模式的创建。

现在又过了十年。我们会看到国际的顶级会议,国人的身影已经占了一半 ,所以我会认为我们现在已经有足够多的高水平青年学者。现在我们也像历史上的任何一个强国一样,能够实现技术超车,这就跟 Densing Law 所指向的那个趋势一定会发生。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們