「清程极智」翟季冬：中国AI算力行业，不能只“照抄”英伟达

今天小编分享的互联网经验：「清程极智」翟季冬：中国AI算力行业，不能只“照抄”英伟达，欢迎阅读。

欢迎关注

涌现（Emergence），是生成式 AI 浪潮的一个关键现象：当模型规模扩大至临界点，AI 会展现出人类一般的智慧，能理解、学习甚至创造。

「涌现」也发生在现实世界——硅基文明一触即发，AI 领網域的创业者、创造者，正在用他们的智慧与头腦，点亮实现 AGI 的漫漫征途。

在新旧生产力交替之际，《智能涌现》推出新栏目「涌现 36 人」，我们将通过与业界关键人物的对话，记录这一阶段的新思考。

作者丨邱晓芬

编辑丨苏建勋

一场超算比赛的激烈程度，或许不亚于一场 F1 赛车比赛。

所有的队伍，要经过三轮厮杀，从美国厮杀到欧洲、再到亚洲。来自全球顶尖学校的学生队伍，各自带着他们最先进的算力前往赛场。

当每一个队伍被分派五道应用题时，他们要调教好伺服器里面的七八个裸金属硬疙瘩，让它计算超越人腦所能回答的复杂题目。

作为清华大学计算机系的教授，翟季冬在过去多次带领学生参与，还曾经拿过十几次冠军。不过他发现，超算比赛几乎等同于一次英伟达先进 GPU 的集体展示——几乎所有队伍，清一色标配英伟达的机器。

情况能否有一些改变？

这个问题一直萦绕在翟季冬心头，这也是「清程极智」诞生的原因之—，想要让国产的算力也能逐渐站到台前。有所不同的是，不与过去大多数国产芯片创业者一般，他并不打算从重资产的硬體方向切入算力赛道。

在过去，中国的芯片创业基本集中在 wifi 芯片、MCU 等更普适的领網域，尝试自下而上突围。直到 2020 年前后，随着国际博弈趋势加剧，国内才渐渐掀起了以 GPU 为代表的 AI 芯片创业热潮，直接切入半导体、AI 的要塞。

但这个赛道过去几乎是充满艰辛，顶着压力前进。国产 AI 芯片的对手只有一个，牌桌对面是几乎垄断着全球半导体行业所有优势资源的英伟达。

从另一个角度看，这正是中国 AI 芯片的机会。

只是，新的变化是，经过几年的沉淀，大家逐渐正视原来的雄心，新的反思出现。一些现实摆在眼前：尽管中国大部分 AI 芯片喊出了 " 对标英伟达 " 的口号，但被大模型厂商实际使用时，软硬體的短板难免暴露。

" 想用三四年超越英伟达，是一个不可能的任务，中国的芯片厂商只在硬體层硬拼英伟达的打法是不是行得通？" 在先进制程落后，积贫积弱的情况下，尝试从軟體层面切入创新，是盘活国产芯片 " 蚂蚁雄兵 " 的重要一环。

而这正是翟季冬和「清程极智」团队想做的事情。

显然，在过去，軟體几乎是 AI 芯片经常被忽视的环节。如果以英伟达为参考，可以发现，英伟达并非一家简单的硬體公司，相反，他们反而更愿意以軟體公司自诩——英伟达负责軟體的人员，几乎是硬體团队的数倍。

而在軟體上持续下功夫，也让英伟达在过去受益匪浅。一个有意思的现象是，当人工智能的发展迅猛，从 2013 年的卷积结构，迭代到如今的 Transformer，芯片的热潮跌宕起伏，但英伟达的硬體始终万变不离其宗 "。翟季冬表示，这正是由于英伟达的计算芯片上层有灵活的軟體作为支撑。

翟季冬向《智能涌现》介绍，目前，「清程极智」的团队推出了「清程 Pro」、「清程 Pro Max」的軟體平台，从軟體的方式切入，优化国产算力，让国产算力也能有不输英伟达产品的效果。

比如，经过实测，「清程 Pro」与某国产芯片合作后，将芯片推理的吞吐量提升了 1.7 倍，远超于英伟达同类产品；「清程 Pro Max」则从芯片之间的连接入手，能够在两三台伺服器互连的情况下，把大模型推理吞吐量提高大约五六倍。

据翟季冬介绍，在某国产卡四卡平台上，清程极智的推理系统 FastDecode 对某 130B 大模型可达到相比于 vLLM 多达 7 倍的生成吞吐量。

" 軟體可以帮你做好多事情，一定程度上可以弥补硬體本身的缺陷 "，目前，「清程极智」已经与不少国产芯片厂商、国产大模型厂商达成了深度合作。

在此前，翟季冬的团队还曾经研发出能够在超级计算机上训练百万亿参数模型的「八卦炉」系统。令人难以置信的是，这台有足球场大小的超算系统，背后的芯片全部都是国产芯片。

翟季冬介绍，在超算上验证过的「八卦炉」系统是清程极智的核心技术之一，提供针对芯片体系架构的算子编译优化，以及面向超大规模集群的并行计算解决方案，包括网络通信优化，容错系统，负载均衡等，未来将支持更多的国产算力，进行高达十万卡的超大规模训练。

翟季冬判断，未来中国的 AI 芯片行业，在训练侧或许只有少数几家能够胜出，但中国在端侧应用的想象力会比美国更强，推理芯片必将百花齐放，明年下半年或许会有更多新公司的涌现。

而在这种趋势下，分散的中国 AI 芯片市场，给軟體创新的涌现，提供了一块湿润的土壤。

以下《智能涌现》与翟季冬的交流实录（略经摘编）

用軟體"盘活 " 国产算力

智能涌现：您之前的经历如何？为什么是选择和算力优化有关的领網域进行创业？

翟季冬：我在清华的时候，2014 年就开始带着大學生去参加全球超算比赛，每年是有三场比赛，美国一场，欧洲一场，亚洲一场。我们会带一个小规模集群，包括几台伺服器，每台伺服器有多个加速卡。

主办方会提供五道左右应用程式，每个队伍在各自携带的集群上优化应用程式，最终看哪个队伍整体性能最高。有点像 F1 赛车，我们既要带不错的硬體，同时也要把这些程式在机器上的性能发挥到极致。

我们总共在国际超算比赛中拿到十几次冠军，但是我们之前用的都是英伟达最好的 GPU 去参赛，比如 H100、A100。

我们团队在智能算力优化方向积累了很多年，这次想要通过产学研的机制去更好地推动这个方向，同时也助力国产芯片的发展。

智能涌现：你们最近对接了不少国产芯片，目前这些产品用起来的体验如何？

翟季冬：国产芯片目前的算力性能虽然相比英伟达还存在一定差距，但是整体性能还不错。国产芯片目前主要的问题是軟體生态。国内目前做 AI 芯片会有十几家，但是我们发现依然有许多用户对国产芯片的接受程度不高。

比如大家要做很多一些酷炫的 AI 应用，上层模型在标准的开源版本上有所改动，这时在国产芯片上运行就可能遇到一些问题，而使用英伟达的芯片遇到的问题就少得多。

我们思考的问题是，怎么能把国产算力市场盘活，让上层的大模型应用感受不到国产芯片在使用过程中一些不顺畅的地方，或者说尽可能获得和英伟达一样的使用体验。

其实在十年前，大家也觉得，相对于成熟的 CPU 体系，英伟达的 GPU 不好用。英伟达也是经历了好多年才构建出成熟的軟體生态的，国产 AI 芯片公司都是 2016 年之后成立，有的是 2020 年左右，如果说想用三年的时间超过英伟达，这是一个比较大的挑战。

我们也在想，中国芯片如果完全复刻英伟达的路线，是一个最简单可行的思路，但是这条思路是不是最好？可能还需要进一步思考。

我认为，国产芯片如果能把軟體做好，硬體也能发挥到极致。

智能涌现：你们现在的商业模式是什么？

翟季冬：我们的核心技术集中在智能算力系统軟體。从商业模式来说，我们会将这一系列的軟體与算力结合起来，使算力变得更好用，以不同形式直接交付给终端用户。

我们今年上半年的计划是，和底层芯片厂商紧密合作，同时在上层帮助大模型厂商无感迁移模型到国产芯片上。有几家知名国产大模型公司都是清华计算机系孵化的，我们跟这些机构有很多深度的合作。

智能涌现：你们怎么用軟體的方式，去解决国产芯片硬體层面不好用的问题？

翟季冬：我们曾经在某国产芯片上加上我们的軟體，形成软硬一体化解决方案「清程 Pro」，把大模型推理吞吐提高了 1.7 倍。后来我们在此基础上做了一些硬體改进，形成了「清程 Pro Max」上，可以把吞吐提高大约五六倍。

軟體可以帮你做好多事情，一定程度上可以弥补硬體本身的缺陷。

智能涌现：优化是一锤子买卖吗？如何提升算力优化的效率？

翟季冬：从我们系统軟體的设计角度看，给任何一种芯片做的优化，再用到其它芯片架构上是不需要全部重新实现的。因为我们的軟體在设计上有大量是共性的，我们在最底层的编译器，会有一层统一中间表示，会跟各种芯片架构去对齐，这样不同厂商可以买不同的 AI 加速芯片，用我们的一套軟體，也能支持多种芯片。换句话说，上层模型一直在迭代，而清程的技术能力可以持续高效地支持新兴模型的底层算子优化，未来跟各芯片厂商和模型厂商会是持续合作的状态，不会只是一锤子买卖。

智能涌现：咱们的技术壁垒是什么？

翟季冬：第一个是 AI 编译器，它的核心作用是把上层模型算子高效地转换成底层 AI 芯片可以执行的代码，把底层不同 AI 芯片的计算能力释放出来。我们清华大学计算机系高性能所的实验室在这块有非常好的技术积累。

第二个是并行系统。当前的计算系统是一个高度并发的系统，无论是大模型训练、微调或推理，都需要把模型映射到多块 AI 芯片、以及 AI 芯片内部的多个功能单元。

模型如何拆分，通信如何高效完成，这些都是并行系统需要去考虑的事情。我们在大规模并行系统方面，做过很多相关的工作。

中国芯片创业，需要新创新思路

智能涌现：但是行业里面，是不是还没有这种围绕创新方式的反思？

翟季冬：不能说完全没有反思，但还需要有更多思考，核心痛点在哪？原创力在哪？

我认为现在中国芯片所面临的核心痛点，是如何要让这些芯片变得更好用，真正把底层的算力给发挥出来。

智能涌现：你觉得怎么看中国芯片公司过去几年的打法？

翟季冬：英伟达花了 20 年，把硬體、軟體积累起来，已经有很多创新内化在产品中。国产芯片不是通过学习它的公开这些材料简单的模仿就能超过他。

如果中国公司想要在训练侧超越英伟达，除非你有本质的创新，中国发展其实不要简单的 copy，模仿人家永远只能是跟在人家后面，我觉得核心的要有自己的科技创新。

一个更有价值的思考是：中国的芯片公司在国际供应链上明确受限这种情况下，我们怎么能通过軟體和硬體协同创新来突破重围？

这是中国芯片一个更好的出路。我们其实可以通过軟體的方法，有效地把这些芯片给整合起来。

像英伟达这么多年，它的架构本身没变。从 2013 年的卷积，到现在的 Transformer，英伟达的底层架构不变，它通过軟體来想办法帮用户去适配，我觉得这就是軟體的意义，因为軟體相对比较灵活。

智能涌现：为什么是选择在中国，做这种算力軟體优化方向的创业？

翟季冬：在国外，做算力相关的軟體只要把英伟达、 AMD 两家服务好，基本上也就解决问题了。美国现在英伟达是一家独大，去整合其他芯片的意义有限，但是在中国，这反而有机会。

如果英伟达所有的算力对中国都开放，那么中国芯片成长的机会也会少很多。

对于国产芯片来说，英伟达的弱点才是他们的机会点，如果你盯着他的强项去做的话，很难超越他。中国的芯片市场越分散，端侧芯片的场景越分散，反而越能给軟體创业带来更多机会。

智能涌现：有没有感觉现在国内的芯片厂商比较各自为政，缺乏合力？

翟季冬：英伟达是一家很有野心的公司。他们做了一系列 GPU 加速卡，然后又收购了网络芯片公司迈络思、又做了自己的 ARM CPU，他想做一体机，甚至想收购 ARM。但是国内的大部分芯片厂商其实都没有野心和能力去整合，大部分国产厂商都很分散，有的更偏向于推理，有的更偏向于训练，所以我感觉现在国产的算力很难形成合力。

但是从另一个角度来看，这反而对算力軟體的创业有机会，我认为这个现状，在未来 5-10 年还是会存在。

美国训练更强，中国端侧想象力更丰富

智能涌现：国内坚持做万卡训练的芯片公司，是因为 buy in 了 scaling law？您怎么看，它会持续吗？

翟季冬：所谓的大模型可以理解为将海量的数据压缩起来，放到一个千亿或者万亿的数据库里，是一个数据压缩的过程。

如果编码和压缩算法更高效，那可能原来用万亿参数才能压缩，现在用 5000 亿的模型就可以完成压缩了。

如果能够在部門的参数量内集成更多的知识，那就不需要一味的追求这个大参数量。大模型参数变大，我认为是无奈之举，未来在算法层面肯定还是需要去不断创新。

智能涌现：硅谷有很多新架构的芯片出现，您觉得中国未来也会出现这种现象吗？

翟季冬：与美国相比，中国的应用场景更多，端侧如何把性能、成本、功耗能做到极致，是非常关键的。

在未来，端侧相比伺服器侧会更百花齐放，所以端侧軟體在这里面起的作用也会更大。

智能涌现：不过国产芯片有的从训练做起，有的从推理切入，其实从商业的角度来看，从训练还是推理哪一侧做起更好？

翟季冬：从中国发展角度来说，我认为训练和推理都很重要，如果连算力集群都要靠特殊途径获取，从国家和产业发展的角度都是不可持续的。万卡国产训练平台的要求很高，可能只有几家企业最后能胜出。

对于一些公司来说，可能短期内在训练侧卷不过某些公司，或者市场上有一些公司可以买到可用的芯片，那他的策略可能就会往端侧偏移。