今天小編分享的科學經驗:阿裏大模型春節禮包來了:代碼可執行率超GPT-4,1.5版本全系列開源,歡迎閲讀。
阿裏大模型,再次開源大放送——
發布 Qwen1.5 版本,直接放出六種尺寸。
最大的 Qwen1.5-72B-Chat 模型,在 MT-Bench 和 Alpaca-Eval v2 上,超越 Claude-2.1、GPT-3.5-Turbo-0613。
甚至在部分任務中,得分已經超過前幾個版本的 GPT-4。
各地的開發者前來祝賀,其中 0.5B 的迷你版讓不少人都迫不及待想試試。
并且還順便問問,那個多模态大模型 Qwen-VL-Max 有可能開源嗎?
除此之外,還集成到了 Hugging face transformers,以及同主流的十餘個框架合作,從微調、部署、量化到本地推理一步到位。
Qwen1.5 開源
此次開源發布,主要有四個方面值得關注。
首先,模型系列很多,直接開源了 6 種尺寸(0.5B、1.8B、4B、7B、14B、72B)的基礎模型(base)、聊天模型(chat)以及量化模型(包括 Int4 和 Int8 GPTQ 模型,以及 AWQ 和 GGUF 量化模型)。
其次,更多的生态融入。
目前,Qwen1.5 的代碼合并到 Hugging Face transformers,使其 transformers>=4.37.0 而無需 trust_remote_code。
此外,還同主流的第三方框架,比如 vLLM、用于部署的 SGLang 、用于量化的 AutoAWQ、AutoGPTQ 、用于微調的 Axolotl、LLaMA-Factory 以及用于本地 LLM 推理的 llama.cpp 等進行了合作。
Qwen1.5 系列可在 Ollama、LMStudio 等平台上使用。此外,API 服務不僅在 DashScope 上提供,而且在 Together.ai 上也提供,具有全球可訪問性。
再者,性能更強。
比如在基本能力的評估上,包括 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基準測試中可以看到,Qwen1.5-72B 一些分數上已經超過了 GPT-4。
在長上下文支持上,全系列模型的能力都有一定的拓展。尤其 Chat 模型,像 Qwen1.5-7B-Chat 這樣的小模型,在 5 個任務中有 4 個表現與 GPT-3.5 相當。
而 Qwen1.5-72B-Chat 的性能,則明顯優于 GPT3.5-turbo-16k,略微落後于 GPT4-32k。
在代碼執行上,72B 聊天模型在數學以及可視化方面離 GPT-4 還有一定的差距,但代碼可執行率超過 GPT-4。不過他們表示,會在在未來的版本中得到增強。
除此之外,此次功能也得到了更新和統一。
全系列均統一支持至少 32k 的最大長度;
多語言能力全面提升并提供了更豐富的多語言評測;
全系列統一支持 system prompt;
統一具備強鏈接外部系統能力(agent/RAG/Tool-use/Code-interpreter)
One More Thing
這兩天,與阿裏大模型的進展還不少。
比如前幾天,其多模态大模型 Qwen-VL-Max 登頂 OpenCompass 榜首。
以及在通義千問 APP 上,上線了不少春節免費新應用,比如全家福、拜新年、萬物成龍等影像生成的功能。
此外,還有網友反饋説,通義千問 2.0 版本更新之後,能力提升得很明顯。
你有感受到嗎?
項目鏈接:
https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524
https://qwenlm.github.io/zh/blog/qwen1.5/
參考鏈接:
[ 1 ] https://twitter.com/JustinLin610/status/1754538215959335100
[ 2 ] https://twitter.com/huybery/status/1754537742892232972
[ 3 ] https://twitter.com/_akhaliq/status/1754545091434139732
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>