今天小编分享的互联网经验:燧原科技创新研究院院长、首席科学家姚建国教授:构建基础算力底座,推动国产算力发展,欢迎阅读。
5 月 23 日,36 氪举办「颠覆 · AIGC」产业发展峰会。本次峰会汇聚产业力量,共同探讨企业、行业在面临变革时的应对策略,分享思考,探索和发现产业中最具潜力的企业与最具价值的技术,在激荡的环境中探寻前行的方向。
大会上,燧原科技创新研究院院长、首席科学家姚建国教授发表了题为《新一代 AIGC 算力底座》的主题演讲,从算力视角分享了自己在大模型发展历程中的见闻。姚建国教授坦言,大模型的快速发展已超出意料,两年前关于大模型落地的解决方案仍不够明晰,但目前看来大模型用武之处颇多。姚建国教授也表示,大模型的发展不是一蹴而就,而算力是大模型发展的重要助推器。
同时,姚建国教授进一步指出,国内芯片技术与軟體生态建设较国外仍有差距。首先,随着智能算力的需求增加,利用系统级设计解决大模型算力可能会成为未来的发展方向;其次,軟體生态产业应构建国内軟體生态,寻求与国际创新体系相结合。最后,产业界的内部合作将加速算力基础设施落地商用,共同推动国产算力发展。
燧原科技创新研究院院长、首席科学家姚建国教授
以下为姚建国演讲实录(经 36 氪整理编辑):
我本身在燧原科技和上海交大两个部門,所以整个算力视角,我会从产业界、学术界包括研究界的角度分享一下。
其实算力的主要分为需求、场景、芯片和系统四个层次。2022 年左右有多少朋友相信大模型落地?我和很多朋友分享过,也讨论过整个后续大模型发展,大模型真正有一个算力之问,模型越大真的能够提升算力水平吗?
其实这个问题 2023 年之前,很多朋友都不信,为什么呢?因为我们原来很多小的模型都能解决我们的问题,比如说原来 NLP、CV 也好都是通过经典模型解决。模型越大,能力越强,泛化越好,就有能力解锁新的技能,这是出乎很多人意料的一个期望,最终 2023 年,现在很多人相信了。所以很多发展原来受限于算力、模型、軟體硬體迭代式互動结果,这也是大家熟悉的发展历程。
谷歌 2017 年提出 Transformer,把 Attention 机制介绍到学术界, OpenAI 整个发展历程通过了好几代迭代。整个过程不是一蹴而就的,模型不停迭代去做。在大模型开始之初是有极大风险的,他们自己都不太相信,或者是怀疑这个能做到什么样的程度,通过了几代的迭代,去年年底开始有了突破性的成果。所以我们还是期望国内有一款对标 ChatGPT 的通用大模型,我们能够愿意付费使用,这样会对整个产业有重大的推动作用。
这个过程中,算力起到什么作用呢?一般来讲都说,大模型的参数很多,参数很多时候算力要求很大。比如 OpenAI 的开放文献中提到:3640PFLOS 天,这个相当于 1 万张 A100 加速卡的算力水平。可以看到真正通用大模型算力水平是通过大量算力去做,也因此 ChatGPT 的投入巨大,风险巨大。
2020 年之前从研究界一直关注 Transformer 模型,Transformer 相关一些机制到 NLP 解决,后来移到 CV 上,当然 CV 还在提升精度。从整个发展水平和发展规律来看,算力在整个大模型基础设施里面起了重大推动作用。埃隆马斯克要做,首先买了一万张 GPU 卡,这个是基本的配置。
算力的种类很多,包括通用算力、超算、智算,通用算力就是我们用的云计算;超算方面,比如说天气预报、超算中心;智能计算这几年的发展呈指数级增长,超越了摩尔定律。2012-2018 年 AI 训练算力增长了 30 万倍,而通用计算增长只有 7 倍,所以说从算力发展来讲,目前算力水平包括算力需求的话还是智能计算为主的计算发展趋势。
我记得前两年去企业交流时,很多人都在问,大模型怎么落地?当时我也不知道,但现在看来都觉得哪儿都可以落地,所以说很多发展,都是在意料之外的发展。这个意料之外的过程中,我们怎么去找一下规律,看一下未来国内机会哪,我们沿着别人走过的路,能够找一些其他的方向发展,所以整个发展是生成能力改变了生产力的智能。
什么叫生产力智能?就是能够帮我们人类做很多事情,能够解决生产力问题,我本人负责研究生,我们在研究生培养里面,今年开始改了一些考试规则,比如说研究生复试编程,如果 GPT 能做出来,研究生就不需要学了,这样考试内容基本不能和 GPT 能力相当,人类还是要解决复杂问题的,通用的基本智能,可以交给机器去做,这个很多是生成能力,未来会给大家很多想象空间。
这里就有算力需求,不同的算力需求应对不同的大模型,基础大模型,场景大模型和应用大模型。基础大模型与 ChatGPT 类似,是很基础,是通过巨大的算力生成模型,通过预训练,由超大算力去支撑。这一般都是巨大的智算中心去做的,小的智算中心还达不到要求。
场景大模型是在大模型的基础上做调优,可以适用到不同的应用场景,赋能到不同行业,可以用普惠训练算力做。
还有应用大模型,主要是推理算力,是相对来讲性价比比较高的算力。推理现在有两种趋势,一个云端推理调用一下返回来;另外还有端侧,现在开始要有,本身的大模型部署开始往端侧做。
还有就是 " 模型即服务 ",这个事已经发展很久了,但是发展并不好,原来我们 AI 这个通用一些自动化 AI 算法,有很多的 BAT 都做过,但用下来之后,包括客户反馈是一般的。但如果 " 模型即服务 " 是通过通用人工智能提供的话,可以带来不同一些体验,比如文字生成图。
所以我们一致认为,AIGC 给大家带来全民体验 AI 能力,这个非常重要,现在我们大街上随便找人都可以说 AI 能力这个事情,因为都体验过。这就是很多 " 模型即服务 " 能力部署的范围提供。
我们再看一下芯片,上个月上海学术界做一个讨论,大模型我们差多远?学术界给的说法至少差一代,芯片当然也差,只有知道差在哪以后我们才有能力追赶。不管是模型、算法也好,还是芯片能力也好,国内一直以来都在讲追赶。
智能芯片目前还是英伟达占统治地位,这个是不可否认事实,而且大家看到全球 AI 芯片的增长的话,是快速的增长,因为智能算力的需求在增加,智能算力主要芯片载体就是 AI 计算加速卡,叫 GPU、DSA 也好,都是 AI 算力的特定计算。
从市场来讲还是有很大需求,但是我们怎么办呢?其实我们要深刻看一下历史发展,和我们将来发展路径一个耦合度,比如超算。超算也是做大系统,主要靠互联去解决大算力问题,这样的话能够实现 E 级计算。它的重要特点就是单核能力差,系统能力相当,我单个打不过你整个系统还是可以,因为它实现了整体算力。
智能计算未来类似芯粒,单 die 算力有限,但是系统级设计包括互联能够解决大模型算力这种智算水平,未来很可能往这个方面发展。
最近很多的研究、初创企业都在提系统级创新,包括 AMD、英特尔都在提,这是技术的趋势。系统级创新的问题来源于算力水平,不仅仅是单颗芯片解决,一定是通过系统解决方案去实现整个算力的变化。
目前存储和运算的性能提升很多,但是带宽提升有限,有一个 9 万倍计算性能提升,但是有一个 30 倍带宽性能提升,这肯定是不匹配的,未来会有通信瓶颈。所以要去解决高速通讯下实现高速互联,高速互联实现可扩展智算水平的问题。
另一方面,现在功耗太大,大家知道智算中心其实都是高耗能产业。解决这种高能效一些计算,比如英特尔做了 7nm 以下数据搬运,能够占 63% 的能耗水平。现在很多大模型计算都是数据密集型的计算,因此它的能耗会很高。另外大模型需求还要去做专门的加速,刚才咱们看到大模型发展从技术来讲可以追溯到 2017 年谷歌发的 Attention 的文章,那篇文章在模型上提供了一个专门的算法,现在包括英伟达在内的各类加速设备,都在做专门的加速,针对特定模型、特定算子,特定的计算范式可以做专门加速,整个实现模型算力就会有这种呈指数提高,这就是系统性创新。
另外整个智算系统的发展趋势来讲,芯片还是要大算力,高速互联下的高算力,这个能够实现系统级的解决方案。目前来讲单独的伺服器、单独的集群无法解决大模型预训练,但推理还是可以的。预训练会有一些专门加速,比如说 H100 提供 Transformer 引擎,提供低精度的数据格式,这样也是提升算力利用率。这里还有很多互联创新,所以未来会有很大创新是集中在系统级层面。
此外还有生态,軟體生态其实是我们产业最关心一件事情。前段时间讨论,軟體生态提了好多年了,为什么軟體生态还没有成长起来?现在大家都认为做軟體生态,首先是在国内包括研究界自己要把軟體生态产业支撑起来,并与国际创新体系相结合。
所以说,还是在开放的軟體生态下,去做类似于大模型编程,现在出了新的编程模型,包括编程方法,支撑大模型更有效地、更容易地编程。这也是智算系统的发展趋势。
燧原科技是做整个算力的基础设施和数字底座,有芯片、軟體、系统,包括解决方案,目前 AI 芯片主要还是两类,是第二代训练和第二代推理,现在已经实现了整个算力集群的部署。由于集群都需要高速互联,我们也实现了自己的協定高速互联,替代原有協定,这样可以实现多机多卡,实现大规模千卡以上互联下的集群算力。
同时,燧原也提供了液冷智算集群的解决方案,实现了低能耗、高能效。目前已经在智算中心、泛互联网、以及智慧城市和金融的人工智能应用场景里落地商用了。未来也是需要我们和产业界朋友一起推动国产算力发展,构筑新一代 AIGC 的算力底座。