今天小编分享的科学经验:我们为最“in”大模型,找到了另外一条解题思路,欢迎阅读。
"in",是近年来兴起的一个网络用语,通常是 in fashion 的简称,意指走在潮流最前沿。
随着 GPT 的爆火,生成式 AI 正式进入全球科技舞台的中央,大模型也已经成为当下最 "in" 的话题。
用 " 百模大战 " 来形容当下大模型的火热程度一点也不夸张。据目前市场已公布的大模型产品来看,10 亿参数规模以上的大模型产品已多达 80 个。
一些企业更是将大模型视为人工智能的核心,认为这很可能是引领第四次工业革命的颠覆性创新技术,将推动各个行业的变革。
不过大模型已不再是你以为的 " 大力出奇迹 ",它的发展正在迎来一些微妙的变化——
Smaller is Better。
这并非是无中生有,此话正是出自 HuggingFace 首席布道师 Julien Simon。
但纵观大模型(尤其是大语言模型,以下简称为:LLM)的发展,参数体量逐渐庞大似乎成为了一种大趋势,动辄便是千亿甚至万亿的量级:
△图源:Information is Beautiful(数据截至 2023 年 7 月 27 日)
那么 Simon 如此 " 背道而驰 " 的观点,又是从何而来?
我们都知道模型的参数体量越大,它们从大量非结构化数据中学习的表现通常就会越出众,但随之而来的一个老大难问题便是需要大量的计算能力。
这也就是为什么现在人们谈及大模型时,往往都绕不开" 大算力 "的原因。
(甚至连 OpenAI 的 CEO 也在为算力发愁……)
因此,Simon 给出了新的解法,让大模型 " 瘦身 "(Smaller)的同时还能提高效率(Better)。
并且这并非空口无凭,有测试数据为证:
从结果上来看,测试的各种大模型有的被 " 瘦身 " 到了先前的一半,但效率反倒提了上来。
更直观一点的,我们可以看下文本回答的效果:
△大模型 " 瘦身 " 后自然语言对话效果
这便是当下大模型很 "in" 的一种打开方式。
站在现在这个时间节点,我们也想以《最 "in" 大模型》专栏的形式,提供给大家两个更 in 的解题思路:inside intel和in practice。以此来对大模型这个科技圈最 in 的顶流做一次全新角度的解析和展望。
最 Inside Intel 的创新解决方案
不仅仅是在这一波大模型热潮,自深度学习爆火以来,似乎 GPU 相比其它硬體来说更受 AI 圈的青睐。
究其原因,无外乎以下几点:
并行计算能力:GPU 可以同时进行大模型训练和推理,加速计算过程。
加速训练速度:在传统 CPU 上进行大型模型训练非常耗时,使用 GPU 可以缩短训练时间,加速模型研究和开发。
适应深度学习计算:GPU 高度并行的架构在深度学习的计算中表现出色,特别适合处理神经网络的计算需求。
但开发人员往往会小瞧 CPU 这个 " 潜力股 "。
没错,让大模型发展发生微妙变化的解法之一,正是CPU!
例如在上文 Simon 的例子中,他先是用 SmoothQuant 这种训练后量化的方法来为 LLM" 瘦身 ":将 LLM 通常进行训练的 16 位浮点参数(又名 FP16/BF16)替换为 8 位整数,以便更容易执行任务,和减少需要的内存。
而后 Simon 选择实验的 CPU,正是英特尔的第四代至强 ®️ 可扩展处理器,其可在 AI 推理方面,为大模型的落地部署提供更易获取、应用门槛更低和性价比更高的平台。
但是,如果你还以为英特尔只有 CPU 能来跑 AI 的话,那就又错了。
就在上个月,英特尔新鲜出炉了 AI 专用加速器—— Habana ®️ Gaudi ®️2,专为训练 LLM 而构建,并为数据中心大规模扩展而设计,同时为深度学习推理和训练工作负载提供更具性价比的解决方案。
重点来了!
在 MLPerf 最新报告中的多种训练和推理基准测试中,与其他面向大规模生成式 AI 和 LLM 的产品相比,Gaudi ®️2 拥有卓越的性能,甚至可以表现得比 GPU 更 " 专业 "。
据悉,预计今年 9 月 Gaudi ®️2 便可支持 FP8,在帮助用户提升运营效率的同时,即将迎来更优的性价比:
客观地说,相较于主流大模型硬體平台,CPU 虽更容易被获取和部署,但其提供的解法仍会更倾向于那些要求部署和应用门槛尽可能低,同时性价比较高的推理场景;但英特尔已发布的 Gaudi ®️2 和即将登场的其他加速芯片,例如数据中心 GPU,则有望实现进一步的补全,进而形成 CPU 可在主打通用计算时兼顾 AI 加速,GPU 提供通用加速支持,即兼顾科学计算和 AI 加速,而 Gaudi ®️ 则能一心一意专攻深度学习加速的一整套异构硬體产品布局,这种布局的意义,就在于会提供更加多样化、更具性价比的解决方案。
就更别提英特尔还会为多种异构硬體产品搭配可以进行统一编程、轻松迁移并能跨异构调度算力资源的 oneAPI 軟體工具包了。
英特尔未来在 AI 或整个企业计算领網域的异构多芯布局,已经在脚踏实地地走向现实。其对 CPU 和 AI 加速器等硬體的定向优化,也让大模型出现了更多的可能性。
最 in practice 的落地实战指南
当然,事实上相比于现有的主流大模型硬體平台,大家对英特尔硬體在大模型上的优化还缺乏了解。本期专栏就将直接上干货,为你手把手带来最 in practice 的实战指南。
如上文中提到的利用第四代至强 ®️ 可扩展处理器对 LLM 进行训练后量化的实验,在本期专栏的第一篇文章中,甚至还直接附上了代码:
△启用增强型 SmoothQuant 的样例代码
是不是有一种 " 开箱即用 " 的味道了?
同时,本期专栏也非常与时俱进地会以 ChatGLM、BLOOMZ、PyTorch minGPT 主流大模型为案例,step by step 教你实战优化之道。
当然,面对实践中可能会涉及的更加复杂的问题,我们也不仅局限于提供硬體加速指南,而是会考虑到更多维度,例如 LLM 如何与大数据平台进行对接,以及如何更好地进行数据安全或隐私方面的保护。
例如系列第二篇文章中提到的:将至强 CPU 平台内置的可信执行环境(Trusted Execution Environment,TEE)类技术——SGX 用于为 LLM 提供隐私和数据保护创新解决方案,就可以更好地保障数据在 LLM 模型训练和推理过程中的保密性。
最后一点,就像我们前文提到的,英特尔加速 AI 已经不再只有 CPU 这一个选项,所以 Gaudi ®️2 虽然刚发布不久,但在本次专栏中也会露面,而且同样是落在实战层面,敬请期待。
专栏中涉及 CPU 的实战分享,更多是希望帮到真正要在业务中落地应用 LLM 的最终用户,毕竟想要在更为广泛的行业中普及 AI 应用,如能充分利用部署更为广泛的、基于 CPU 的 IT 基础设施和架构,是更有利于达成降本增效的目标的。
期待这些分享能帮助更多部署了英特尔 ®️平台、对 LLM 跃跃欲试的用户,能在第一时间开展相关的探索和实践,让大模型 Go to vertical + in practice。
小结
基于行业观察、实战案例,我们也会从中迸发出更多大模型加速的灵感。
如大模型 " 瘦身 " 提高效率,定然还会有更多更加优化的解决方案。英特尔为此专门开设了 GitHub 问题反馈,希望与您共同探讨优化之道:https://github.com/intel/neural-compressor/issues
总而言之,英特尔采用多种处理器和加速器,并配以统一且易用的軟體工具来实现优化,已然是为大模型的发展开辟了一条崭新的路径。
这背后的意义,正如 HuggingFace 的 Simon 所述:
一家独大,从来不是一件好事。
言外之意很明显了:多元化的蓬勃发展才是长久之道。
本次的《最 "in" 大模型》专栏,也许仅仅是一个通向多元化未来的开始。
欢迎关注专栏,也非常期待可以和大家深入探讨一波。
>