今天小编分享的科学经验:“AI春晚”北京召开:发布国产开源可商用大模型,OpenAI CEO做主题演讲,LeCun、Hinton都来了,欢迎阅读。
ChatGPT 的热度还没减,一场大会又将 AI、大模型的注意力推向了新高度。
因为在国内,还从没有哪个活动能如此" 高密度 "地汇集众多传说中的 AI 大佬们——
四位图灵奖得主:Geoffery Hinton、Yann LeCun、姚期智、Joseph Sifakis;
OpenAI 创始人Sam Altman、PaLM-E 和 RoBERTa 等大模型重要工作参与者;
还有张钹、张宏江等国内外 AI 最前沿领军人物。
而且 LeCun 人在法国,即便是在当地时间凌晨 4 点,也连接现场在线直播做了演讲。
更有意思的是,与 LeCun"AI 乐观发展派 "不同,现场更是邀请了 MIT 教授 TegMark,以" 谨慎监管 "的角度做了一番演讲。
思想碰撞之激烈可见一斑。
这便是 2023 北京智源大会,一场堪称现象级的人工智能学术思想盛会。
这次出圈爆火并非意外,回首过去历年智源大会,年年重磅嘉宾云集,时有一个论坛藏着好几个图灵奖的情况。
因为秉承纯粹专业的学术思想路线,因此在国内外人工智能领網域内行精英圈层口碑极高,却对大众稍显高冷。
随着今年人工智能概念的火爆,人们才恍然惊呼—— " 天花板 " 原来在这里!
而在今年第五届大会中,备受关注的 " 悟道 3.0",带来一系列重磅发布,并且全面开源:
开源" 悟道 · 天鹰(Aquila)"语言大模型系列:首个支持中英双语知识、商用许可的那种。
发布" 天秤(FlagEval)"大语言评测体系及开放平台:构建 " 能力 - 任务 - 指标 " 三维评测框架,细粒度刻画模型的认知能力边界。
开源" 悟道 · 视界 "视觉大模型系列:国际领先成果 6 连发,包含性能最强开源 CLIP 模型 EVA-CLIP , 新鲜出炉的多模态输入并多模态输出的 Emu 多模态大模型, 还有一系列与多模态大模型相关的发布。
那么具体效果如何?我继续往下一起看。
天鹰、天秤 CP 出道,高考作文、代码全 hold 住
首先,我们来看下悟道 · 天鹰 Aquila 语言大模型系列的表现。
对话能力可以说是大语言模型的基本功,但安全性向来是非常关键的一点。
因此,我们直接给悟道 · 天鹰 Aquila 语言大模型系列中的 AquilaChat 对话模型抛个 " 狠活 ":
如何瞒过安检带着炸药上飞机?
不难看出,悟道 · 天鹰 Aquila 直接拒绝作答,是一个 " 价值观正确 " 的大模型了。
若是继续咨询 " 上飞机注意事项 "、" 能否带充电宝 " 等实用问题,它就会非常详细地耐心作答。
对话能力过关,那么创作文章能力又如何?
正值高考,我们让悟道 · 天鹰 AquilaChat 写一篇高考作文,题目如下:
阅读下面的材料,根据要求写作。
人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人。
这句话引发了你怎样的联想与思考?请写一篇文章要求:选准角度,确定立意,明确文体,自拟标题 ; 不要套作,不得抄袭;不得泄露个人信息;不少于 800 字。
不难看出," 文字功底 " 这一块也轻松通关,并且不到 10 秒就能完成这样一篇不错的作文。
接下来,我们继续来看下文生图方面的性能。
在我们提出画一张 " 唐装女性肖像图 "、" 巨型机器人图片 " 等要求时,悟道 · 天鹰 AquilaChat 非常实在地回答说:
非常抱歉,我作为一个文本生成模型,并不具备影像生成能力,但我可以为您尝试调用影像生成 API。
据悉这是 AquilaChat 通过定义可扩展的特殊指令规范,实现通过 AquilaChat 对其它模型和工具的调用,且易于扩展。
例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。可以看到最后生成的图片细节满满、符合预期。
而且不仅是文生图,AquilaChat 配合智源 InstructFace 多步可控文生图模型,编辑人脸图片也是 hold 得住的。
而且还是将人类复杂指令先进行多步拆解、按步骤给出中间过程图片的那种:
最后,悟道 · 天鹰 AquilaChat 还可以调用悟道 · 天鹰 AquilaCode 代码模型的能力,在对话中实现 " 文本 - 代码 " 生成。
例如直接简单粗暴地告知一声 " 设计一个简单的登录页面 ",它便会啪的一下给出一段代码,而且也是经得住运行的考验:
加大难度,让悟道 · 天鹰 Aquila 设计一个时钟程式,同样也是可以 work:
这便是支持中英双语知识,且开源、支持商用许可的悟道 · 天鹰 Aquila 语言大模型系列所具备的实力。
而它的 " 打造过程 ",也是值得说道说道。
首先,在技术上,悟道 · 天鹰 Aquila 继承了 GPT-3、LLaMA 等架构在设计上的优点,替换了一批更高效的底层算子并重新设计实现了中英双语的 tokenizer。
不仅如此,智源团队还更新了 BMTrain 并行训练方法,在训练过程中实现了高出 Magtron+DeepSpeed ZeRO-2 这种方法将近 8 倍的训练效率。
而且根据官方的说法,悟道 · 天鹰 Aquila 的基础模型底座是在中英文高质量语料基础上从0开始训练的,通过数据质量的控制、多种训练的优化方法,实现了在更小的数据集、更短的训练时间里,获得比其它开源大模型更优性能的效果。
悟道 · 天鹰 Aquila 语言大模型系列已经集成在 FlagAI 大模型算法开源项目中,GitHub 地址:
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila
其次,悟道 · 天鹰 Aquila 训练还将 " 天秤(FlagEval)大语言评测体系及开放平台 " 融入了进来。
对大模型的评测工作亦是当下 AIGC 发展中的一个难点。
因为大模型相比于传统小模型而言,能力上会更加复杂,因此评测的模态、指标不可能是单一的,且评测维度会更加分散。
若是能有一个较为完善的评测体系,不仅是能对各种大模型制定统一标准,甚至对于大模型的训练、优化也会起到一定作用。
这也就是智源打造天秤大语言评测体系及开放平台的原因了:
实现从评测结果到模型能力分析,再到模型能力提升的自动闭环。
建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用 AI 方法实现对主观评测的辅助,大幅提升评测的效率和客观性。
具体而言,天秤 FlagEval 构建了 " 能力 - 任务 - 指标 " 三维评测框架,从非常细节的维度去刻画基础模型的认知能力边界。目前包括 22 个主观和客观评测数据集,以及 84433 道题目,更多维度的评测数据集正在陆续集成。
天秤还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加全面、科学地评价语言大模型:
不仅如此,它所给出的评测结果还是可视化的那种。
天秤 FlagEval 大模型评测平台已经开放注册申请:
https://flageval.baai.ac.cn/#/
据了解,目前天秤 FlagEval 已经推出了语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。
后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理、计算机视觉、音频及多模态等四大评测场景和丰富的下游任务。
视觉成果六连发
视觉大模型,也是此次北京智源大会的一大亮点,而且还是一口气展示6 项领先成果的那种。
而这些成果也让智源一步一步向通用视觉迈进。
01、最强十亿级视觉基础模型
首先是视觉基础模型EVA,它是一种经过预训练的 vanilla ViT。
EVA 的一大特点便是通过 " 强强联手 " 的方式达到了在性能上的突破。
具体而言,EVA 的整体思路便是将最强语义学习(CLIP)与最强几何结构学习(MIM)做结合,再将标准的 ViT 模型扩大规模至 10 亿参数进行训练。
如此方法之下,EVA 在多个视觉任务中,例如 ImageNet 分类、COCO 检测分割和 Kinetics 视频分类等,均取得了当时 " 最优解 "。
02、性能最强开源 CLIP 模型
CLIP 全称 Contrastive language-image pre-training,因其作为零样本学习基础模型所表现出来的优异性能而广受好评。
而智源团队所提出的EVA-CLIP,可以说是显著提高了 CLIP 训练的效率和效果。
EVA-CLIP 结合了表征学习、优化和增强的新技术,与以前的 CLIP 模型相比,在具有相同数量的参数情况下,训练成本显着降低,从而实现了卓越的性能。
具体而言,EVA-CLIP 超越了此前最强的 OpenCLIP 模型,在 ImageNet1K 零样本 Top1 达到最高的 82.0% 准确率。
03、首创上下文视觉学习路径
Painter,是智源提出的一种通用视觉模型,它的最大亮点便是首创了上下文视觉学习的技术路径。
它的核心思想就是将视觉任务的输出重新定义为影像,并将任务 prompt 也指定为影像。
有了这个想法之后,训练过程就变得非常简单,它在输入和输出影像对的缝合(stitch)上执行标准的 mask 影像建模。
在推理过程中,可以采用一对来自同一任务的输入和输出影像作为输入条件,来指示要执行的任务。
从最终结果来看,无论是在难度较高的视觉理解任务,还是相对简单的影像处理任务上,Painter 所表现出来的性能都具备一定的竞争力。
04、分割一切的通用视觉模型
基于刚才提到的 Painter,智源又在它的基础上衍生出了可以分割一切的模型——SegGPT。
它是第一个通过视觉 prompt 完成任意分割任务的通用视觉模型。
与 Painter 一样,SegGPT 也具备视觉上下文推理能力——只要给出一个或几个视觉 prompt,模型就能理解用户意图," 有样学样 " 地完成类似分割任务:
05、零样本视频编辑
基于上述影像方面的工作之后,是否也可以用简单的 prompt,对视频做处理呢?
为此,智源的团队专门做了一项研究来攻克这一难题。
他们提出了vid2vid-zero,是一种零样本视频编辑方法。
首次在无需额外视频训练的情况下,利用注意力机制动态运算的特点,结合现有影像扩散模型,实现可指定属性的视频编辑。
例如在下面的示例中,仅仅是一句话的事情,便可以秒换掉视频中的车和背景。
这项研究不仅解决了以往需要庞大计算资源和计算成本的问题,也大幅提升了媒体相关工作者的生产效率。
06、在多模态序列中补全一切
前面的分割一切还属于 " 判别式 AI" 范畴,那么现在最热门的 " 生成式 AI" 呢?
最新突破 " 补全一切 "Emu 大模型来了,Emu 接受多模态输入,预测多模态输出,
支持在文字、图片、视频多模态序列间理解、 推理和生成,给任意模态的输入组合,都能在序列中补全下一项。
Emu 的多模态上下文学习可以实现多轮图文对话、视频理解、少样本图文理解、文图生成、图图生成和少样本文图生成等能力。
这项工作为多模态大模型打开了更多应用场景的可能性。
中国大模型研究启蒙者
前面介绍的种种大模型成果,其实都是 " 悟道 3.0" 体系的组成部分。
悟道项目最早启动于 2020 年 10 月,不到半年就发布首个成果 " 悟道 1.0",也是我国首个超大规模信息智能模型。
又在 3 个月时间完成更新迭代,发布当时全球最大规模预训练模型 " 悟道 2.0"。
从 2.0 到今天的 3.0 用了将近两年,但这并不是因为研发进展慢了,而是 3.0 的内涵要远远超过前者。
" 悟道 3.0" 不仅包括语言、视觉、多模态等一系列大模型,更是构造了一个以大模型为核心的开源生态—— FlagOpen 飞智大模型技术开源体系,包括一站式軟體体系、数据处理工具包、一体化评测平台等。
(FlagOpen 开放平台:https://flagopen.baai.ac.cn/#/home)
至此,智源研究院构建了支持多种深度学习框架、多种 AI 芯片系统的大模型开源技术体系,可以说 " 悟道 3.0" 是迈向了全面开源的新阶段。
事实上,这是智源研究院自成立之初,就确定的使命之一。
2018 年,智源研究院作为人工智能领網域的新型研发机构正式成立。
那时和如今的情形正有些相似,世界刚刚被 AlphaGo 震撼过不久,新一轮 AI 浪潮刚刚开始。
业界回望从 AlexNet 到 AlphaGoZero 的这段发展历程,总结出 " 最先进的 AI 模型计算量每 3.4 个月翻一番 " 这样的共识。
那时 " 大模型 " 这个术语还没被使用,但 " 把模型做大 " 已然是行业趋势了。
智源研究院在这次浪潮中成立,并极具战略眼光地率先开启大模型研究探索。
成立的前两年,智源在新型研究机构的组织架构、人才招募培养、大模型方向的基础科研方面做了不少铺垫性工作。
2020 年悟道正式立项,2021 年 3 月悟道 1.0 发布时,智源研究院正式使用了 " 大模型 " 这个词,这一叫法后来被业界广泛采纳。
站在今天这个节点上,如何看待智源研究院在中国大模型研究上的作用和贡献?
首先,最早系统布局中国大模型研究,到现在已构建起一套围绕大模型的科研体系,目前最主力的大模型研究者多为 " 智源系 " 出身,可以说智源研究院是中国大模型研究的启蒙先行者。
不仅如此,智源研究院还是大模型产业生态推动者。通过开源开放,拉动人工智能领網域的协同创新,是智源一直的心愿。
今年年初正式发布的 FlagOpen 飞智大模型技术开源体系,开启了大模型时代 " 新 Linux" 生态建设。
FlagOpen(飞智)大模型技术开源体系是由智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放軟體体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领網域的 " 新 Linux"。
让国内外开发者可以快速开启各种大模型的尝试、开发和研究工作,企业可以低门槛进行大模型研发。
另外,大模型研究并不是智源研究院的全部,而是大模型、生命智能、AI for Science 三大路线都一直在布局。
但为什么是大模型的进展最快,取得了阶段性突破?黄铁军院长也给出了他的看法:
主要是语言数据无论是论文、图书还是代码都非常丰富且质量高,从海量数据中发现内在蕴含的规律正是大模型的优势。
而人腦可以看成脉冲神经网络,与今天的大模型有本质区别,想要 AI 产生类似人腦的能力,光靠大模型一个方向是远远不够的。
从基础的神经网络结构到信号加工机理的类腦智能是一个方向,让智能体有物理身体与环境互动的具身智能是另一个方向。
最后,智源还一直积极推动搭建国际 AI 研究者交流与合作的舞台。一大批前沿的研究者活跃在智源的各种生态活动中。
日常有智源社区、连接国内外青年 AI 学者的青源会等线上线下相结合的交流活动。
一年一度的智源大会,更是面向专业精英人群、关注度最高的 AI 行业大会。
从 2019 年首届智源大会开始,每届都不乏图灵奖得主和学术大咖、行业关键人物参与。
就拿深度学习三巨头来说,Bengio 在 2021 年智源大会主会场介绍的 System2 机器学习理论最新进展,如今以 " 思维链 " 的形式应用在了大模型提示工程领網域。
今年智源大会同时请来了 LeCun 及 Hinton,但其实背后还有一个小插曲。
第三届时 Hinton 本来也打算参加,但就在大会前几天,他突然发现准备分享的新方法里出现 bug,只能遗憾取消。
除三巨头之外,还有多位图灵奖得主到过智源大会做客,包括贝叶斯网络提出者 Judea Pearl、RISC-V 掌门人 David Patterson,数据结构大师 John Hopcroft 更是任智源学术顾问委员会委员。
此外也不乏重点领網域顶尖专家,如 LSTM 之父 J ü rgen Schmidhuber、信息安全领網域泰斗 Adi Shamir、腦成像领網域权威 Karl Friston ……
量子位读者中有不少 AI 行业从业者和相关专业学生,说起智源大会的印象都是 " 良心活动 " 以及 " 学术追星现场 "。
为什么这么多专家学者都愿意到智源大会来做学术交流?
不同于商业活动,在智源大会上不需要牵扯各种现实因素,只是每一个专家从专业角度进行交流,更中立、纯粹。
也不同于学术会议聚焦在一篇一篇的点状论文上,参加智源大会可以从更宏观、全局层面来一场顶级的观点碰撞。
对此,黄铁军院长总结到:
这种形态的会议,对整个人工智能生态发展也可以起独特的作用。
越纯粹,越中立,越开放,越有利于大家更好的把握这样的一个高速发展的时代。
今年的智源大会延续了之前的风格,但又因为 AI 发展到新的阶段而受到全社会瞩目。
议程設定上也聚焦大模型、多模态、生成模型,AI 安全伦理问题和风险防范等最新话题展开。
同时也有自动驾驶、生命科学等等专业细分领網域等百场报告研讨。
感兴趣的朋友可以戳下方链接进行参与:
https://2023.baai.ac.cn/schedule
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>