阿裏剛開源32B大模型，我們立馬測試了“弱智吧” - 大酷樂

今天小編分享的科學經驗：阿裏剛開源32B大模型，我們立馬測試了“弱智吧”，歡迎閲讀。

阿裏的通義千問（Qwen），終于拼齊了 1.5 系列的最後一塊拼圖——

正式開源Qwen 1.5-32B。

話不多説，直接來看 " 成績單 "。

這次官方 pick 同台競技的 " 選手 " 是Mixtral 8x7B模型和同為 Qwen 1.5 系列的72B 模型。

從結果上來看，Qwen 1.5-32B 已經在多項評測标準中超越或追平 Mixtral 8x7B：

并且即便是在與自家更大參數模型 PK 過程中，Qwen 1.5-32B 也用 " 以小博大 " 的姿勢展現出了較好的性能。

用通義千問團隊成員的話來説就是：

這個模型顯示出了與 72B 模型相當的性能，特别是在語言理解、多語言支持、編碼和數學能力等方面。

在推理和部署過程中，成本還會更加友好。

不僅如此，即便是再拉來其它體量相當的大模型 " 選手 "，Qwen 1.5-32B 在多項評測中的成績依舊較為亮眼：

除此之外，團隊還做了一項比較有意思的測試——長文本評估任務，" 大海撈針 "。

簡單來説，這項任務就是将一個與文本無關的句子（" 針 "）隐藏在大量的文本（" 大海 "）中，然後通過自然語言提問的方式，觀察 AI 能否準确提取出這個隐藏的句子。

從結果上來看，Qwen 1.5-32B 在 32k tokens 的上下文中性能表現良好。

不過有一説一，剛才所展示的也還僅是 Qwen 1.5-32B 在評分上的成績，至于具體到實際體驗過程中，效果又會如何呢？

大戰一波 " 弱智吧 "

自打大模型火爆以來，" 弱智吧 " 就一直成了檢測大模型邏輯能力的标準之一，江湖戲稱為" 弱智吧 Benchmark"。

（" 弱智吧 " 源自百度貼吧，是一個充滿荒謬、離奇、不合常理發言的中文社區。）

而且就在前幾天，，成了最好的中文訓練數據，引發了一波不小的熱議。

這項研究正是來自中科院深圳先進技術研究院、中科院自動化研究所，滑鐵盧大學等眾多高校、研究機構聯合團隊。

剛好此次 Qwen 1.5-32B 在開源的同時，也一并放出了在線體驗的 demo，那麼當它倆碰到一起，會擦出怎樣的火花？

請聽第一題：

我爸媽結婚為什麼不邀請我？

Qwen 1.5-32B 很準确地回答出了 " 你的父母在結婚時你尚未出生，因此他們無法邀請你參加他們的婚禮 "。

繼續第二題：

為什麼睡覺過夜的地方叫酒店，喝酒的地方叫夜店？

面對這道很經典的問題，Qwen 1.5-32B 也能做到追根溯源地做正經科普。

再來第三道和第四道：

高中如果想提高升學率，為什麼不直接招大學生？

網吧能上網，弱智吧為什麼不能上弱智？

不難看出，Qwen 1.5-32B 都能夠給出準确的答案。

尤其是在第四道問題上，它甚至直接指出了邏輯性的問題：

問題似乎不太恰當或者存在誤解。

嗯，Qwen 1.5-32B 是一個經住了 " 弱智吧 Benchmark" 的大模型。

至于其它關于常識、數學、編程等能力的效果，家人們可以親自去體驗一番了。

如何做到的？

正如我們剛才所述，Qwen 1.5-32B 在技術架構上與此前版本并無太大的區别，亮點就是引入了GQA（Grouped Query Attention，分組查詢注意力）這個技術。

這也正是它能夠在相對較小的體量之下，能夠做到性能較優且快速部署的關鍵。

GQA 是一種在自然語言處理中使用的 Transformer 架構中的一種機制，它通過将查詢序列分組為多個子序列來提高 Transformer 模型的計算效率。

這種方法可以有效地減少計算復雜度，同時保留 Transformer 模型的表示能力。

具體而言，GQA 是通過将查詢分組并在組内計算它們的注意力，來混合 Multi-Query Attention ( MQA ) 的速度與 Multi-Head Attention ( MHA ) 的質量。

GQA 通過将查詢頭分為組，每個組共享單個鍵頭和值頭，來實現這一點，從而在質量和速度之間取得平衡。

如此一來，GQA 的引入就降低了注意力計算的數量，從而加速了推理時間。

最後，奉上 Qwen 1.5-32B 在 HuggingFace 的體驗入口，感興趣的朋友可以去體驗啦 ~

參考鏈接：

[ 1 ] https://qwenlm.github.io/zh/blog/qwen1.5-32b/

[ 2 ] https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo

[ 3 ] https://github.com/QwenLM/Qwen1.5

[ 4 ] https://klu.ai/glossary/grouped-query-attention

— 完 —

【火熱報名中】中國 AIGC 產業峰會

定檔 4 月 17 日

峰會已經邀請到數位代表技術、產品、投資、用户等領網域嘉賓，共論生成式 AI 產業最新變革趨勢。

最新确認嘉賓包括：商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等，。

峰會将全程線上下同步直播，歡迎預約直播 ⬇️

點這裏關注我，記得标星噢

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>