今天小编分享的互联网经验:号称GPU推理速度提高400%,腾讯红杉投资的无问芯穹公布首个大模型算力平台,欢迎阅读。
(图片来源:钛媒体 App 编辑拍摄)
钛媒体 App 获悉,3 月 31 日上午,腾讯、百度投资的国内大模型领網域 AI Infra 公司无问芯穹在上海发布无穹 Infini-AI 大模型开发与服务平台。
无问芯穹表示,Infini-AI 大模型开发与服务平台包括一站式 AI 平台,以及兼容 infini-megrez、Llama、ChatGLM 等多个模型的大模型开发平台,利用 GPU 推理和加速技术,提供大模型开发、训练、运行、应用的完整工具链。
清华大学电子工程系教授兼系主任,国家自然科学基金杰青、无问芯穹发起人汪玉教授早前表示," 现在大家都在做各种各样的非常厉害的芯片,但是,但怎样去把模型更好的部署在这些芯片上,让做应用开发等领網域人员不会花费额外的代价,其实会极大推动大模型研发。无问芯穹就是想要推动大模型技术设施发展进入各行各业。"
无问芯穹创始人、CEO 夏立雪透露,大模型服务平台于 3 月 31 日起开启免费公测,给所有实名注册的个人和企业用户提供百亿 tokens 免费配额。一站式 AI 平台于 4 月 1 日 -4 月 30 日限时免费试用。
无问芯穹创始人、CEO 夏立雪
据悉,无问芯穹(Infinigence AI)成立于 2023 年 5 月,是一家专注于为 AI 2.0 时代提供完整解决方案的科技公司。
投融资层面,截至目前,无问芯穹并未公开融资,但工商信息显示,腾讯、百度、红杉中国、启明创投、同歌创投、智谱 AI、真格基金、光源资本、绿洲资本、经纬创投、华控电科、北极光创投、金沙江创投、徐汇资本、南山资本等机构均有投资入股无问芯穹。
无问芯穹创始团队来自清华大学电子工程系,致力于成为大模型落地过程中的 "M × N" 中间层,以打造大模型软硬體一体化方案,链接上下游,建立 AGI(通用人工智能)时代大模型基础设施。
清华大学电子工程系教授兼系主任、无问芯穹发起人汪玉教授
无问芯穹发起人是汪玉教授。1982 年出生的汪玉,本科、硕士、博士均在清华大学,2007 年汪玉选择留校任教,是目前清华大学最年轻的系主任。同时,清华大学电子工程系也是国内半导体产业的 " 黄埔军校 ",包括燧原科技创始人兼 CEO 赵立东,前清华大学校长王希勤等人都毕业于该专业。
2016 年 1 月,以汪玉教授为负责人的深度学习处理器项目,通过清华大学电子信息学院论证并获得支持。随后,项目团队以知识产权转化入股、创立 AI 芯片公司深鉴科技,进行产业化运营。其学生姚颂、单羿是深鉴科技创始成员,投资方包括高榕资本、金沙江创投、三星风投等机构。2018 年,深鉴科技被全球最大的 FPGA 厂商赛灵思收购,随后赛灵思也被美国芯片巨头 AMD 公司所收购。如今的无问芯穹,或属于汪玉的 " 二次创业 "。
无问芯穹联合创始人、CEO 夏立雪博士则是汪玉的学生,于 2018 年在清华大学电子工程系获得工学博士学位,于 2013 年在清华大学电子工程系获得工学学士学位。此外,他还于 2017 年 1 月至 6 月赴杜克大学进行为期半年的访问学者。夏立雪的研究内容为深度学习算法的硬體设计优化,关注层次主要包括算法层的模型压缩、軟體层的算法编译优化、以及面向新兴存储计算元件 RRAM 的深度学习计算平台体系结构和容错方法研究等。
无问芯穹联合创始人、CTO 颜深根是中科院博士,北卡州立大学访问学者,曾任商汤科技数据与计算平台部执行研究总监、北京大学 - 商汤科技联合实验室副主任,曾带领上百人优秀团队帮助商汤开发包括 SenseParrots 在内的多个原创 AI 系统,建立了接近 2 万片 GPU 的超大规模高性能 AI 计算平台。
无问芯穹联合创始人兼首席科学家戴国浩,目前是上海交通大学长聘教轨副教授,CCC(清源研究院定制计算中心)Co-PI,DAI Group(人工智能设计自动化创新实验室)负责人。戴国浩同为清华校友,分别于 2014 年和 2019 年取得清华电子工程系工学学士和博士学位。汪玉为其博士毕业论文指导老师。其主要研究方向是大规模稀疏图计算、异构硬體计算、新兴硬體架构等,毕业后,他曾为汪玉研究团队的助理研究员,后于 2022 年加入上海交大任副教授,方向为稀疏计算、AI 电路与系统等。
2023 年,以 ChatGPT 为代表的 AI 大模型风靡全球,AI 2.0 时代正在到来,而算力训练成本高、难以统一高效部署算力设施等,依然是大模型发展制约因素。
汪玉曾表示,大模型的涌现给 AI 、自动驾驶、科学计算以及机器人等领網域都带来了显著的促进作用,但当下,大模型落地面临诸多挑战,算力供需平衡、大模型应用降本需要软硬一体协同优化的 AI 生态。
" 从个人的角度来看,当前大模型主要面临三个方面的挑战:第一,大模型面临的算力限制;第二,当前推理和包括训练在内的成本相当高,这是创业者和大公司普遍面临的挑战;第三,面对独特的算法和多元硬體的生态,如何更有效地推动这个生态的发展,也是当前面临的一个重要挑战。" 汪玉表示。
汪玉曾透露,训练 GPT-4 时需要使用到 2.4 万张 A100 GPU。而以不同类型的模型和用户数来计算(推理阶段),在自建算力集群的情况下,每天的费用可能达到 690 万。如果使用现有的 API 运营,费用可能更高。而假设 GPT-4 Turbo 每天要为 10 亿活跃用户提供服务,每年的算力成本可能超过 2000 亿元。
夏立雪博士曾表示,算力不足仍然是制约通用人工智能发展的重要因素。GPU Utils 的一份数据显示,全球目前 H100 等效算力的供给缺口达到 43 万张。在解决算力不足的问题上,除了抢购和囤积英伟达,更多的方案正在浮出水面。
去年 7 月的一场演讲中,汪玉表示,无问芯穹是面向大模型的 MxN 软硬體联合优化中间层的平台,利用其平台设施,推理成本、微调成本、人力成本均有望降低 10 倍以上,同时文本长度也会增加 10 倍以上。
简单来说,无问芯穹做的任务属于 AI infra 技术,M 层是大模型,N 层是 A100/H800 等国内外伺服器硬體,通过算子优化、自动编译、不同芯片耦合等技术一键部署模型。
" 在芯片制造方面,我们面临着算力密度的限制。目前大家正在讨论的是 1Tops/Watt 的设计,即每瓦特能够提供 1T 次运算(人腦的功耗大约为 20 瓦)。未来在某些任务上,我们需要硬體去达到每瓦特 1000Tops/Watt 的指标。那么如何通过芯片实现 1Tops/Watt,甚至几百 T 或几千 Tops/Watt 呢?过去几年中,计算芯片通过尺寸微缩的红利实现了各种各样的专用处理器。现在,我们开始关注近存储计算和存内计算,因为数据搬运相比数据计算更耗电,搬运数据(带宽)变得更加复杂。进一步地,我们也在研究是否可以不使用硅基芯片、微电子,而是采用光电子来制造芯片,这是业内关注的一系列研究方向。另一方面,大模型的发展需要极高的互联带宽,根据实验室理论计算,GPT-3 所需的互联带宽为 1380TB/s,而一张英伟达的卡自带的 600GB/s 互联带宽与这一需求之间存在显著差距。这也是为什么需要将许多这样的卡连接在一起,才能完成对这一模型的训练。目前,计算性能的提升速度超过了带宽的增速,尤其在多元互联的应用场景中,如何有效地将机器连接起来是一项相当复杂的任务。我们也在思考,创建一种相对统一的中间层,以支持长文本、实现更高的性价比,同时实现一键部署。并且在这个中间层中,纳入一些工具,以协助算法和应用的开发,比如整合算法压缩、算子优化以及自动编译等功能。通过这样的中间层,有望更好地匹配 M 个大型模型和 N 个硬體,从而实现更加灵活的部署。" 汪玉曾表示。
所谓 AI Infra,是指构建 AI 所需的基础设施,涵盖连接算力和应用的 AI 中间层基础设施,包括数据准备、模型训练、模型部署和应用整合等环节。它不仅与算力相关,还包括大数据层面的优化。AI Infra 包括 AI 基础框架技术,涉及大模型训练、部署领網域的各种底层设施,以及基础軟體栈等核心组成部分,主要目标是优化算力算法、促进应用落地。而 AI Infra 在 AI 行业中扮演着连接硬體、軟體和应用的关键角色,促进了 AI 技术的发展和应用。
2023 年 11 月,无问芯穹联合清华大学、上海交通大学团队在 Arxiv 上发表了一篇论文,提出了一种新方法 FlashDecoding++,通过异步方法实现注意力计算的真正并行,可以将 GPU 推理速度提高 2 倍 -4 倍(200%-400%),在英伟达 A100 显卡上的推理平均加速 37%,以及同时支持英伟达和 AMD 的 GPU 产品。
另外,无问芯穹还自主研发 70 亿参数大语言模型 " 无问天权 " —— infini-megrez-7b,支持英伟达和 AMD 的 GPU,以及无问芯穹自研高效推理引擎等。
据称,目前无穹 Infini-AI 平台已支持了 Baichuan2、ChatGLM3、Llama2、Qwen 系列等共 20 多个模型,以及 AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA 等 10 余种计算卡,支持多模型与多芯片之间的软硬體联合优化和统一部署。
针对此次公布的一站式 AI 平台和大模型服务平台,钛媒体 App 也进行了测试和体验。
我们观察到,从推理侧来说,大模型服务平台的 chat 速度还是比较快的,同时也支持多个大模型、多款伺服器同时进行推理应用。但截至目前,钛媒体 App 测试的基于无穹 Infini-AI 平台的 infini-megrez-7b 和 ChatGLM3 模型,均不能提供汪玉教授准确的个人信息反馈,说明其知识体系无法实时更新,数据和模型能力仍需要加强。
钛媒体 App 还获悉,无问芯穹还宣布将与智谱 AI 合作构建大模型训推万卡集群,并且与摩尔线程就 MTT S4000 千卡集群达成協定。
戴国浩透露,其团队于今年 1 月初研发出全球首个基于 FPGA(现场可编程逻辑门阵列)的大模型处理器,通过大模型高效压缩的软硬體协同优化技术,使得 LLaMA2-7B 模型的 FPGA 部署成本从 4 块卡减少至 1 块卡,并且性价比与能效比均高于同等工艺 GPU,即展示 " 一张卡跑大模型 "。戴国浩称其为无穹 LPU,预计将于 2025 年发布。(注:此前第四范式也公布了类似的 FPGA 的模型算力加速技术)
圆桌会议上,鸿博股份副总裁、英博数科科技有限公司 CEO 周韡韡博士表示," 若算力不自由,则数据无意义。关于 AGI,关于未来,我们有太多美好的憧憬,但眼下最实在的是先让可满足通用型 LLM 的同构大型智算集群跑起来,再让国内团队在复现和追赶世界水平的同时,兼顾繁荣国产自主可控 AGI 生态发展。"
(本文首发钛媒体 App,作者|林志佳)