我们为最“in”大模型，找到了另外一条解题思路

今天小编分享的科学经验：我们为最“in”大模型，找到了另外一条解题思路，欢迎阅读。

"in"，是近年来兴起的一个网络用语，通常是 in fashion 的简称，意指走在潮流最前沿。

随着 GPT 的爆火，生成式 AI 正式进入全球科技舞台的中央，大模型也已经成为当下最 "in" 的话题。

用 " 百模大战 " 来形容当下大模型的火热程度一点也不夸张。据目前市场已公布的大模型产品来看，10 亿参数规模以上的大模型产品已多达 80 个。

一些企业更是将大模型视为人工智能的核心，认为这很可能是引领第四次工业革命的颠覆性创新技术，将推动各个行业的变革。

不过大模型已不再是你以为的 " 大力出奇迹 "，它的发展正在迎来一些微妙的变化——

Smaller is Better。

这并非是无中生有，此话正是出自 HuggingFace 首席布道师 Julien Simon。

但纵观大模型（尤其是大语言模型，以下简称为：LLM）的发展，参数体量逐渐庞大似乎成为了一种大趋势，动辄便是千亿甚至万亿的量级：

△图源：Information is Beautiful（数据截至 2023 年 7 月 27 日）

那么 Simon 如此 " 背道而驰 " 的观点，又是从何而来？

我们都知道模型的参数体量越大，它们从大量非结构化数据中学习的表现通常就会越出众，但随之而来的一个老大难问题便是需要大量的计算能力。

这也就是为什么现在人们谈及大模型时，往往都绕不开" 大算力 "的原因。

（甚至连 OpenAI 的 CEO 也在为算力发愁……）

因此，Simon 给出了新的解法，让大模型 " 瘦身 "（Smaller）的同时还能提高效率（Better）。

并且这并非空口无凭，有测试数据为证：

从结果上来看，测试的各种大模型有的被 " 瘦身 " 到了先前的一半，但效率反倒提了上来。

更直观一点的，我们可以看下文本回答的效果：

△大模型 " 瘦身 " 后自然语言对话效果

这便是当下大模型很 "in" 的一种打开方式。

站在现在这个时间节点，我们也想以《最 "in" 大模型》专栏的形式，提供给大家两个更 in 的解题思路：inside intel和in practice。以此来对大模型这个科技圈最 in 的顶流做一次全新角度的解析和展望。

最 Inside Intel 的创新解决方案

不仅仅是在这一波大模型热潮，自深度学习爆火以来，似乎 GPU 相比其它硬體来说更受 AI 圈的青睐。

究其原因，无外乎以下几点：

并行计算能力：GPU 可以同时进行大模型训练和推理，加速计算过程。

加速训练速度：在传统 CPU 上进行大型模型训练非常耗时，使用 GPU 可以缩短训练时间，加速模型研究和开发。

适应深度学习计算：GPU 高度并行的架构在深度学习的计算中表现出色，特别适合处理神经网络的计算需求。

但开发人员往往会小瞧 CPU 这个 " 潜力股 "。

没错，让大模型发展发生微妙变化的解法之一，正是CPU！

例如在上文 Simon 的例子中，他先是用 SmoothQuant 这种训练后量化的方法来为 LLM" 瘦身 "：将 LLM 通常进行训练的 16 位浮点参数（又名 FP16/BF16）替换为 8 位整数，以便更容易执行任务，和减少需要的内存。

而后 Simon 选择实验的 CPU，正是英特尔的第四代至强 ®️ 可扩展处理器，其可在 AI 推理方面，为大模型的落地部署提供更易获取、应用门槛更低和性价比更高的平台。

但是，如果你还以为英特尔只有 CPU 能来跑 AI 的话，那就又错了。

就在上个月，英特尔新鲜出炉了 AI 专用加速器—— Habana ®️ Gaudi ®️2，专为训练 LLM 而构建，并为数据中心大规模扩展而设计，同时为深度学习推理和训练工作负载提供更具性价比的解决方案。

重点来了！

在 MLPerf 最新报告中的多种训练和推理基准测试中，与其他面向大规模生成式 AI 和 LLM 的产品相比，Gaudi ®️2 拥有卓越的性能，甚至可以表现得比 GPU 更 " 专业 "。

据悉，预计今年 9 月 Gaudi ®️2 便可支持 FP8，在帮助用户提升运营效率的同时，即将迎来更优的性价比：

客观地说，相较于主流大模型硬體平台，CPU 虽更容易被获取和部署，但其提供的解法仍会更倾向于那些要求部署和应用门槛尽可能低，同时性价比较高的推理场景；但英特尔已发布的 Gaudi ®️2 和即将登场的其他加速芯片，例如数据中心 GPU，则有望实现进一步的补全，进而形成 CPU 可在主打通用计算时兼顾 AI 加速，GPU 提供通用加速支持，即兼顾科学计算和 AI 加速，而 Gaudi ®️ 则能一心一意专攻深度学习加速的一整套异构硬體产品布局，这种布局的意义，就在于会提供更加多样化、更具性价比的解决方案。

就更别提英特尔还会为多种异构硬體产品搭配可以进行统一编程、轻松迁移并能跨异构调度算力资源的 oneAPI 軟體工具包了。

英特尔未来在 AI 或整个企业计算领網域的异构多芯布局，已经在脚踏实地地走向现实。其对 CPU 和 AI 加速器等硬體的定向优化，也让大模型出现了更多的可能性。

最 in practice 的落地实战指南

当然，事实上相比于现有的主流大模型硬體平台，大家对英特尔硬體在大模型上的优化还缺乏了解。本期专栏就将直接上干货，为你手把手带来最 in practice 的实战指南。

如上文中提到的利用第四代至强 ®️ 可扩展处理器对 LLM 进行训练后量化的实验，在本期专栏的第一篇文章中，甚至还直接附上了代码：