大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

Hugging Face劇透:阿裡通義千問下一代Qwen2來了?

2024-01-26 简体 HK SG TW

今天小編分享的互聯網經驗:Hugging Face劇透:阿裡通義千問下一代Qwen2來了?,歡迎閱讀。

作為全球最頂級的機器學習工具庫,Hugging Face 上最近悄悄出現了一個新的 transformers 模型—— Qwen2。沒錯,正是阿裡通義千問 Qwen 模型的第二代。不過通義團隊的算法同學在社交媒體上對此繼續保持神秘。

" 讓它保持神秘 "

也就是說,HuggingFace 上的信息相當于一次 " 劇透 "。而有劇透可能就說明距離正式 " 上映 " 不遠了。

這款最全尺寸的中國開源模型的一舉一動都備受開源社區開發者們關注,那麼這次劇透都透露了哪些信息?我們也來梳理了一下。

根據 Qwen2 頁面的 Overview 部分,這個新一代的基礎模型同樣包括不同參數大小的版本。這個簡短的介紹提到 Qwen2 是基于 Transformer 架構,采用 SwiGLU 激活、注意力 QKV 偏置、組查詢注意力、滑動視窗注意力和全序列注意力相混合等技術,根據介紹,Qwen2 還提供了一個适應多種自然語言和代碼的改進型分詞器。

我們給大家簡單講一講這些技術,首先是 SwiGLU 激活。它是激活函數的一種,全稱叫做 Swish-Gated Linear Unit。看這名就能明白,SwiGLU 激活函數就是縫合了 Swish 激活函數和門控線性單元(Gated Linear Unit, GLU)的特性。 Swish 激活函數是一種非線性函數,它在輸入趨近于正無窮時接近于線性變換,這有助于緩解梯度消失問題。GLU 是一種門控激活函數,常用于序列建模任務。GLU 将輸入分為兩部分,其中一部分經過 Sigmoid 門,另一部分經過 tanh 門。将兩者逐元素相乘,以產生最終的輸出。這種門控機制允許網絡選擇性地傳遞信息,提高建模能力。

在 transformers 模型中,注意力(Attention)機制是一種計算方式,它允許模型在處理輸入序列時考慮不同位置之間的依賴關系,并動态地分配對輸入的不同部分的關注程度。Transformer 的核心是自注意力(Self-attention)機制,尤其在自然語言處理任務中發揮着關鍵作用。

而自注意力可以被表示為每個輸入位置的詞嵌入會被映射到三個不同的向量空間:Query(查詢)、Key(鍵)和 Value(值)。Query 向量用于查詢相關信息,Key 向量負責與 Query 匹配以确定相關性,而 Value 向量包含每個位置實際需要被關注的信息内容。Qwen2 提到的注意力 QKV 偏置,剛好是 Query、Key 和 Value 的首字母。那也就是說,在自注意力機制中,通過引入偏置項,模型可以更靈活地捕捉輸入序列中潛在的模式或特征,并能夠針對特定任務或數據集微調其注意力行為。

它使用的是注意力機制的一個變體。在傳統的自注意力機制中,所有的查詢通過計算與所有的 Key 的相似度來得到注意力權重。而在組查詢注意力中,引入了查詢(Query)分組的概念,查詢被分為多個組,每個組内的查詢只與對應組内的鍵計算相似度,從而獲得注意力權重。

傳統的自注意力機制需要計算 Query 和 Key 之間的所有相似度,因此其計算復雜度是輸入序列長度的平方級别。而滑動視窗注意力通過引入滑動視窗的概念,限制每個查詢只與其周圍一定範圍内的鍵計算相似度,從而降低了計算復雜度。

與之相反,全序列注意力允許模型中的每個位置對序列中的所有其他位置進行關注,并據此計算權重分配。這種機制能捕捉到序列間的任意距離依賴關系,但在長序列上計算成本較高。

結合兩者形成的混合注意力機制可以在保持較低計算復雜度的同時,盡可能保留并利用全局上下文信息。例如,在某些層使用局部的滑動視窗注意力以節省資源,而在其他層或關鍵節點上使用全序列注意力來确保充分捕獲全局依賴關系。

Qwen 的能力對比

最後再讓我們看一看這個 " 改進型分詞器 "。所謂分詞器,它的英文名叫做 tokenizer。這個名字叫暴露了它的本職工作,就是将原始的文本數據分割成一系列有意義的、可管理的小單元,這些小單元通常被叫做 tokens。

根據 Qwen(或者區别于 Qwen2,可以稱為 Qwen1)的技術報告,它采用了在編碼不同語言信息方面具有更高效率的分詞器,在多種語言中展示更高的壓縮率。而根據 Qwen2 提交的代碼,可以看出這個 " 改進帳詞器 " 的一些細節。

首先它依然是多語言支持的:分詞器通過使用 Unicode 字元和字節編碼,支持多種語言的文本處理,這使得它能夠處理包含多種字元集的文本數據。其次,它使用了緩存(cache)來存儲已經分詞的結果,這有助于提高分詞效率,尤其是在處理大量文本時。而在分詞之前,分詞器使用正則表達式(regex)對文本進行預處理,這有助于簡化後續的分詞步驟,例如去除标點符号和非字母數字字元。

而整體的思路上,它采用的依然是字節對編碼(BPE),這是一種有效的詞匯擴展方法,它通過迭代地合并最常見的字元對來構建詞匯表,進而可以有助于處理未知詞匯(UNKs)。同時它還提供了多種配置選項,如錯誤處理策略(errors)、未知詞标記(unk_token)、開始序列标記(bos_token)、結束序列标記(eos_token)和填充标記(pad_token),這些選項允許用戶根據具體需求定制分詞器的行為。

從這些僅有的劇透中,可以看出 Qwen2 繼續在對基礎模型層面的預訓練方法做着改進。而自從 Qwen 發布以來,整個通義家族都在以一種十分驚人的速度迭代和更新完善着,Qwen-VL,Qwen-Audio 等相繼發布。最近 Qwen-VL 還剛剛推出了 Qwen-VL-Plus 和 Max 兩個更新版本,在多模态能力上實現了大幅提升。

這種全尺寸和多類目的特點,讓 Qwen 系列成為開源社區最歡迎的基座模型之一。而在此次的 " 劇透 " 代碼裡,也可以看到,Qwen2 可能最先發布的是它 70 億參數的版本,名字是 Qwen2-7B-beta 和 Qwen-7B-Chat-beta。

而且,另一個很重要的信息是,目前它上傳的代碼還顯示,Qwen2 模型開源協定依然是 Apache 2.0,也就是說,這個目前最全尺寸的中國開源大模型将繼續是免費可商用的。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們