今天小编分享的科学经验:阿里大模型春节礼包来了:代码可执行率超GPT-4,1.5版本全系列开源,欢迎阅读。
阿里大模型,再次开源大放送——
发布 Qwen1.5 版本,直接放出六种尺寸。
最大的 Qwen1.5-72B-Chat 模型,在 MT-Bench 和 Alpaca-Eval v2 上,超越 Claude-2.1、GPT-3.5-Turbo-0613。
甚至在部分任务中,得分已经超过前几个版本的 GPT-4。
各地的开发者前来祝贺,其中 0.5B 的迷你版让不少人都迫不及待想试试。
并且还顺便问问,那个多模态大模型 Qwen-VL-Max 有可能开源吗?
除此之外,还集成到了 Hugging face transformers,以及同主流的十余个框架合作,从微调、部署、量化到本地推理一步到位。
Qwen1.5 开源
此次开源发布,主要有四个方面值得关注。
首先,模型系列很多,直接开源了 6 种尺寸(0.5B、1.8B、4B、7B、14B、72B)的基础模型(base)、聊天模型(chat)以及量化模型(包括 Int4 和 Int8 GPTQ 模型,以及 AWQ 和 GGUF 量化模型)。
其次,更多的生态融入。
目前,Qwen1.5 的代码合并到 Hugging Face transformers,使其 transformers>=4.37.0 而无需 trust_remote_code。
此外,还同主流的第三方框架,比如 vLLM、用于部署的 SGLang 、用于量化的 AutoAWQ、AutoGPTQ 、用于微调的 Axolotl、LLaMA-Factory 以及用于本地 LLM 推理的 llama.cpp 等进行了合作。
Qwen1.5 系列可在 Ollama、LMStudio 等平台上使用。此外,API 服务不仅在 DashScope 上提供,而且在 Together.ai 上也提供,具有全球可访问性。
再者,性能更强。
比如在基本能力的评估上,包括 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基准测试中可以看到,Qwen1.5-72B 一些分数上已经超过了 GPT-4。
在长上下文支持上,全系列模型的能力都有一定的拓展。尤其 Chat 模型,像 Qwen1.5-7B-Chat 这样的小模型,在 5 个任务中有 4 个表现与 GPT-3.5 相当。
而 Qwen1.5-72B-Chat 的性能,则明显优于 GPT3.5-turbo-16k,略微落后于 GPT4-32k。
在代码执行上,72B 聊天模型在数学以及可视化方面离 GPT-4 还有一定的差距,但代码可执行率超过 GPT-4。不过他们表示,会在在未来的版本中得到增强。
除此之外,此次功能也得到了更新和统一。
全系列均统一支持至少 32k 的最大长度;
多语言能力全面提升并提供了更丰富的多语言评测;
全系列统一支持 system prompt;
统一具备强链接外部系统能力(agent/RAG/Tool-use/Code-interpreter)
One More Thing
这两天,与阿里大模型的进展还不少。
比如前几天,其多模态大模型 Qwen-VL-Max 登顶 OpenCompass 榜首。
以及在通义千问 APP 上,上线了不少春节免费新应用,比如全家福、拜新年、万物成龙等影像生成的功能。
此外,还有网友反馈说,通义千问 2.0 版本更新之后,能力提升得很明显。
你有感受到吗?
项目链接:
https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524
https://qwenlm.github.io/zh/blog/qwen1.5/
参考链接:
[ 1 ] https://twitter.com/JustinLin610/status/1754538215959335100
[ 2 ] https://twitter.com/huybery/status/1754537742892232972
[ 3 ] https://twitter.com/_akhaliq/status/1754545091434139732
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>