今天小编分享的科学经验:阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键,欢迎阅读。
在过去一年中,通义千问系列模型持续开源。
不仅频繁放出多种版本,涉及不同的规模和模态,成绩在大模型竞技场中也名列前茅。
比如目前最大的 72B 模型,表现就胜过了 Llama 2-70B 和 MoE 开源模型 Mixtral。
而纵观整个大模型行业,开源开放也正促进着 AIGC 新应用的涌现。
过去一年,通义千问团队都做了什么,又有哪些经验值得开源模型开发者参考?
中国 AIGC 产业峰会上,阿里高级算法专家林俊旸给出了他的答案。
林俊旸参与了通义千问大模型的研发、开源、与外部系统融合等探索工作,还曾参与超大规模预训练模型系列 M6、通用统一多模态预训练模型 OFA 等大模型的打造。
为了完整体现林俊旸的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国 AIGC 产业峰会是由量子位主办的行业峰会,20 位产业代表与会讨论。线下参会观众近千人,线上直播观众 300 万,获得了主流媒体的广泛关注与报道。
演讲要点
开源大模型要更深地融入整个生态,才能给用户带来便捷的使用体验。
除了基础模型 Benchmark 之外,多语言、长序列和 Agent 能力,也是衡量大模型表现的关键指标。
大语言模型发展下去,终将变成多模态模型,因为一个非常智能的模型,不仅要有语言能力,还应该融入对视觉语音方面的理解。
以下为林俊旸演讲全文:
融入生态,让大模型使用更加便捷
相信国内朋友都听说过通义千问的开源模型,我们从去年 8 月份开始一直开源,到现在我们开源的系列模型已经非常多了,刚开始先从 7B、14B 开始开源,直到现在 1.5 系列的 72B 版本,用户使用下来的感觉还不错。
当然,我们的 1.5 系列模型,涵盖的规模非常全,除了 72B 还有 0.5B、1.8B 这样的小规模版本,最新还有一个小的 MoE 的模型,大概是 14B 的参数量,激活参数量大概是 2.7B。
我们的模型现在在 LMSYS chatbot Arena,也就是人工评测上面取得比较不错的成绩,在刚开始登榜的时候,我们是开源的第一名,刚刚才被千亿参数的 Command-R-Plus 给超越。
如果只在相同规模中比较,那么截止到现在(4 月 17 日),我们的 72B 模型还是最好的。
除此之外,我们也听从了开发者的建议,发布了 32B 模型,因为开发者反馈说 72B 模型太大,14B 又好像还不够用。
最新推出的这个 32B 模型也取得了比较不错的成绩,跻身到了前 15 的行列,表现非常接近 72B 的模型,跟 MoE 架构的 Mixtral 相比也具有一定优势。
而除了不断提高模型的表现,最近几个月我们还做了一些不太一样的事情,就是让千问系列模型更好地去融入大模型生态,让用户使用起来更加便捷。
具体的举措有这样几点,第一是千问的代码已经融入了 Hugging Face 的官方代码当中,大家使用通义千问 1.5 的模型时就不需要再用 Transformer code 来调用了。
除此之外,我们很多三方框架都做了比较好的支持,包括 LLama.cpp、vLLM,现在还有像 Ollama 也非常方便,都可以一键使用我们的模型。
如果你用 LM Studio,也可以从中使用我们的 GGUF 的模型。如果想对我们模型进行微调的话,其实可以用到比如说 Axolotl 以及国内的 LlaMA-Factory 等工具。
多语言和长文本能力是关键指标
接下来我会给大家详细介绍一下我们模型的构成以及模型当前表现水平。
首先要看 Base Language Model 是一个什么样的水平,因为只有基础语言模型的表现好了,才能实现对齐,去进一步做一个比较好的模型。
我们各个 Size 都做了对比,其中 72B 的模型在各个 Benchmark 上的表现都比较有竞争力。
当然,我们现在开源模型跟 GPT-4 还会有差距,但是相比于此前的 Llama2-70B 以及 Mixtral,都有比较明显的优势。
很长一段时间,如果大家关注 Hugging Face Open LLM Leaderboard,会发现其实有很多模型是基于我们的 72B 模型微调出来的,因为海外朋友很多非常喜欢微调这个模型,然后登到这个榜上去。
同时我们不仅仅有 7B 及以上的大模型,也有小一些的模型,又叫做 Small Language Model 这一块,我们最小的模型参数量是 0.5B,也就是 5 亿。
我们还有像 1.8B、4B 这些规模的模型,跟 Phi-2、Gemma-2B 等模型相比的话,我们的模型都非常有竞争力。
另外一个方面是多语言的能力,我们此前的模型在 Qwen1 的时候,没有对多语言进行检测,但本质上是多语言的模型。
大家可能会有一些想法,比如说阿里训出来的模型就是中文的模型,或者是中英双语的模型,其实不是这样,我们最近对多语言能力做一些检测,发现它的表现还不错,所以我们进一步在这个基础上做了多语言方面的对齐。
在 12 个比较大的语言上面去跟 GPT-3.5 相比,我们的模型表现都比较有竞争力。
如果大家关注社交媒体,会看到有很多朋友在使用我们的多语言的能力。
从目前收到的一些反馈来看,它的越南语能力还不错,还有人跟我说,孟加拉语也还可以。
最近还出现了一个模型东南亚语言模型 Salior,它是基于 Qwen1.5 继续训练然后微调出来的。
而在小模型方面,有反馈说在法语上的表现不错,家如果看 ChatBot Arena 法语榜上,Qwen1.5 表现也是非常有竞争力的。
在长序列方面,目前我们看 32K 长度上的表现是比较稳定的,有些模型 Size 甚至可以通过外推的方式推的更长,接下来的版本也会有更长的上下文視窗。
我们除了做简单的大海捞针的实验之外,也对一些针对序列评测的榜单做评估,发现我们的 Chat 模型在长序列方面,是可以做一些使用方面的东西。
下一个部分就是常说的 Post-training,今天大家对大模型感兴趣,主要也是因为 Post-training 让大模型的潜力爆发出来,能够成为一个 Assistant 来帮助我们。
我们在 Post-training 做了非常长时间的工作,包括 SFT(指导监督微调),主要是在数据方面做了一些比较扎实的工作。
我们最近在 DPO 方面也做了比较多的工作,之后如果有机会会通过技术报告的方式跟大家分享更多相关的细节。我们做完这些之后,会发现模型在一些评测上面的表现更有竞争力。
除了人工评测之外,还有像 MT-Bench 和 Alpaca-Eval 这样的测试,我们模型的表现也都非常有竞争力,尤其是 Alpaca-Eval。
另一方面我们讲 Agent 方面的能力,这是我们一直非常关心的。
但我们刚开始给 Qwen 系列模型做 SFT 的时候,发现模型不太具备 Agent 相关的能力。
解决的方式是做更多的数据标注,时间长了之后,经验越来越丰富,就可以做一些 Agent 相关的任务了。
下一站是多模态 Agent
今天我们还会关心另外一个问题,就是 " 大 " 模型对于很多人来说是不够用的。
因为大模型发展下去,终将变成多模态的模型,因为一个非常智能的模型,应该能够融入对视觉语音方面的理解。
过去几年的时间里,我们在多模态领網域也做了比较多的工作,再把之前的一些经验融入进来,就有了 Qwen-VL 系列模型。
Qwen-VL 系列模型的训练方法也相对来说比较简单,分为三个阶段。
首先是非常扎实对齐的预训练,实现视觉和语言模型的对齐,让我们的语言模型能够睁开双眼看世界,能够理解视觉方面的信息。
接下来是能力的注入和对齐,我们 VL 核心开发同学,他有一天刚好去医院,对医院密密麻麻拍了一个照问它说肚子疼去哪里,模型把相关信息都能准确识别出来。
这是今天 VL 模型跟过去不一样的点,今天对 OCR 的识别比以往做的好很多。
在这个基础上我们想做更加冒险的事情,比如说打造 VL 方面的 Agent,如果能成功的话,将会非常有吸引力。
比如说,如果想对手机螢幕进行操作,如果看到的是一堆代码,那么操作起来将会非常困难,而对人来说不管怎么看、不管颜色、Logo 怎么变我们都能理解,螢幕上面有哪些东西我们都能做出正确选择。
所以我们也让模型进行了一些尝试,发现它能准确识别出来这些位置,所以我相信随着 VL 模型水平不断提升,在 Agent 方面的潜力会越来越大。
如果让我们模型看见世界,能不能让它听见呢?方法也非常简单,简单说就是把 Audio Encoder 接入我们的模型,再基于刚才所说的几个阶段进行训练,就能得到非常好的效果。
而能够听见声音的大模型,可以做的事情非常多。
比如我在海外旅游,到了某个国家去,不太会说当地的语言,希望有一款产品能帮我进行翻译。
而在这种产品背后需要解决几个问题,需要先对语音进行识别,然后再进行机器翻译,这个过程其实非常麻烦。
但有了大模型之后,这样的任务只需要一个 prompt 就能解决,并且还能翻译成不同的语言,只需要跟模型互動就可以了。
除此之外,还有对自然声音和音乐的理解,ASR 模型只能理解人的说话并转成文字,但现实中的声音包括自然声音以及音乐等多种类型。
而我们的模型可以做音乐的赏析,听到一段声音就能写出一首诗,可以看到大语言模型在多模态方面潜力十足。
另外,今年非常重要的一个趋势是大模型与视频的结合,我们下一步会做出更多模态,其中视频就是一个重点。
最后我做一个简单的总结,我们现在的 Base 模型和 Chat 模型每一次都会推出几个版本,最新的模型就在几个小时前,还推出了 code 专项模型,叫做 CodeQwen 1.5,是一个 7B 规模的模型,在代码方面的 Benchmark 表现比较突出,大家可以去尝试。
接下来我们会去做进一步的 Scaling,包括模型本身和数据的 scaling,接下来还有模态方面的 scaling,也就是接入更多的模态。
我们最终的目标是实现一个非常强大的大预言模型,能够理解各种模态的信息,甚至实现不同模态的输入和输出。所以,接下来大家可以持续关注我们的进展。
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>