大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

騰訊開源“最大”大模型:如果你也相信MoE,那咱們就是好朋友

2024-11-06 简体 HK SG TW

今天小編分享的互聯網經驗:騰訊開源“最大”大模型:如果你也相信MoE,那咱們就是好朋友,歡迎閲讀。

騰訊在 AI 上信什麼?

一個是開源,一個是 MoE (混合專家模型)。

開源好理解,在大模型火熱之後,加入戰局的騰訊已經按照它自己的節奏開源了一系列模型,包括混元文生圖模型等。

某種程度上,ChatGPT 是一個意外的發布,意味着所有人在大模型上都 " 落後 " 了,開源是追趕的一種方式,也是快速建立存在感吸引更多社區參與者來共建的方式。

而騰訊對 MoE 的笃信,此前則并沒太被外界意識到。事實上,這家從廣告業務到推薦功能等,一直在生產環境裏大規模使用着 AI 算法的公司,在技術上對 MoE 的笃信到了某種 " 信仰 " 的程度。

許多細節此前并不太為人所知。比如,在生成式 AI 大模型火熱之前,騰訊的許多模型就在使用 MoE 架構,包括 2021 年騰訊訓練的 T5 模型,整個模型參數已經很大,不過與今天的 MoE 相比,每個專家的參數量較小。而 2024 年 11 月 5 日,騰訊再次開源了最新的 MoE 模型 Hunyuan-Large(混元 Large),一個至今全行業公開發布出來的最大參數的 MoE 架構的模型。

據騰訊介紹,騰訊混元 Large 模型總參數量 389B,激活參數量 52B ,上下文長度高達 256K,公開測評結果顯示,騰訊混元 Large 在 CMMLU、MMLU、CEval、MATH 等多學科綜合評測集以及中英文 NLP 任務、代碼和數學等 9 個領網域取得領先,超過 Llama3.1、Mixtral 等一流的開源大模型。同時,它已經在騰訊業務場景中落地應用,經過實踐的檢驗,是面向實用場景的應用級大模型。

MoE 是一種相對于稠密(dense)模型架構的設計。簡單理解,稠密模型就是通過大力出奇迹訓練出一個全知全能的神,來解決所有問題,它也是今天大模型火熱背後,大家對大模型機制的樸素直覺的理解。而 MoE 放棄了造一個單獨唯一的神,轉而由多個各有所長分工明确的專家組來解決問題,也就是所謂的專家們的混合(Mixture of Experts)。

從這個簡單的描述可以看出,MoE 似乎更符合今天訓練遇到規模化瓶頸時的技術選擇。不過,在今天的開源模型領網域,最強模型 Llama 3 在當時發布時最讓業内驚訝的技術選擇之一,就是沒有使用 MoE 模型架構。這也讓很多跟随 llama 體系的開源模型也繼續堅持着稠密模型的路線。而現在騰訊顯然不想跟着 llama 跑了。

在各種實驗裏尋找 MoE 的 Scaling Law

在 MoE 架構的開源模型裏,最吸引開源社區注意的是 Mistral。這家公司成立于 2023 年 5 月,之後開始訓練 MoE 架構的模型并提供給開源社區。據騰訊介紹,MoE 架構的模型在 2021 年已經成為騰訊訓練大模型的選擇。

在大模型因 ChatGPT 火熱之後,騰訊并沒有第一時間公布它的技術路線和模型,而之後,在 2024 年 3 月發布财報的電話會上,騰訊高管第一次透露了混元已經是一個萬億級别參數的 MOE 架構模型,而在那個時間點前後,業内也開始廣泛達成共識,認為 OpenAI 使用的也是 MoE 架構。

在混元 Large 的發布會上,騰訊機器學習平台總監,騰訊混元大語言模型算法負責人康戰輝表示,如果 scaling law 的本質是追求模型更大的規模以實現更強的能力,那麼 MoE 是必定會走向的路線。他形容騰訊這麼多年已經在 MoE 路線上摸索了很久。與過往大家圍繞稠密模型建立的 scaling law 不同,因為模型架構上的改變,MoE 模型也有自己的 Scaling Law。

" 如果你只是想把模型撐的非常大,那麼專家你可以 8 個,16 個,32 個甚至 64 個都可以。" 康戰輝説。" 但如何找到最好的平衡配方,是需要很多的理解和積累的過程。我們從 21 年一路走來花了很多精力就是在理解這件事情。"

"MoE 模型的變量更多,我們需要找到 MoE 自己的 Scaling Law。" 他説。

騰訊為此做了大量的實驗,具體方法是,設定了一套自己的中小模型簇,做大量的各種模型組的實驗,而不是幾個模型的實驗。" 我們堅持用一種實驗機制來保障它。"

而這次開源的過程,騰訊也把技術 " 秘方 " 做了總結。

它包括幾個方面:

共享專家路由策略:混元 Large 有一個共享專家,也就是負責處理共享的通用能力和知識的專家模型,和 16 個特殊專家,負責處理任務相關的特殊能力,這些專家模型動态激活,利用稀疏的神經網絡來高效率的進行推理。而訓練這些不同的專家時,會遇到數據負載的挑戰,在回收路由策略上,混元通過大量實驗找到有效激活每個專家的方式,使其保持相對均衡的負載,根據 Batch size 縮放原則,匹配不同的學習率,充分利用訓練數據,保證模型的訓練穩定性和收斂速度。

高質量合成數據:今天自然數據開始出現瓶頸,根據 Gartner 報告預測,到 2030 年,合成數據在 AI 模型中的使用将完全超過真實數據。但合成數據目前的問題是,它的質量參差不齊,缺乏多樣性,部分能力 / 任務相關數據稀缺。騰訊的方法是在天然文本語料庫的基礎上,利用混元内部系列大語言模型構建大量的高質量、多樣性、高難度合成數據,并通過模型驅動的自動化方法評價、篩選和持續維護數據質量,形成一條完整數據辣取、篩選、優化、質檢和合成的自動化數據鏈路。目前,它在數學和代碼領網域獲得了超過 10% 的提升。

長上下文處理能力:預訓練模型支持高達 256K 的文本序列,Instruct 模型支持 128K 的文本序列,顯著提升了長上下文任務的處理能力。騰訊還為此做了一個更接近真實世界的評測集,名字叫做 " 企鵝卷軸 ",也即将開源。

此外,在推理加速上,騰訊也使用了 KV 緩存壓縮的技術:使用 Grouped-Query Attention (GQA)和 Cross-Layer Attention (CLA) 兩種 KV Cache 壓縮策略,從 head/layer 兩個維度聯合壓縮 KV cache。同時再搭配上量化技術,提升壓縮比。據騰訊數據,通過 GQA+CLA 的引入,最終将模型的 KVCache 壓縮為 MHA 的 5%,大幅提升推理性能。

同時,在預訓練之外,後訓練階段,騰訊在對齊上也做了很多技術優化。

據騰訊介紹,今天 SFT 通用領網域繁多,數學、代碼高質量指令數據獲取困難,業界廣泛采用的離線 DPO,強化策略效果上限不高,泛化性弱等挑戰,騰訊混元 Large 模型分門别類提升數學、邏輯推理、代碼等能力,另外在一階段離線 DPO 的基礎上引入了二階段在線強化策略。

目前混元 large 已經在 HuggingFace 上線,也同步上架了騰訊雲 TI 平台。

壯大 MoE 的朋友圈

Llama3 系列當初之所以沒有采用 MoE,在它的技術報告裏給出的理由,主要指向了模型訓練的穩定性。而這種穩定性不僅與模型訓練的方法成熟度相關,也和整個訓練生态對 MoE 架構的支持有關。比如,在 Llama 背後,支持它訓練的 Meta 的計算集群裏,像是基于 RoCE 的集群其實對 MoE 這類架構的運作方式有一定的适配問題,會帶來控制上的問題從而導致效率的降低。

而據騰訊介紹,它自己的底層訓練架構就是為支持 MoE 設計的。而且,這一次開源過程裏,騰訊不只開源了模型,還把配套設施也提供了出來。

據騰訊介紹,本次開源提供了配套 Hunyuan-Large 模型的 vLLM-backend 推理框架。" 我們在 vLLM 開源框架的基礎上适配了 Hunyuan-Large 模型,新增的 CLA 結構可以很大程度節約顯存 ( KV-Cache 部分節省 50% ) ,保障超長文本場景。此外通過 FP8 的量化優化,相比 FP16/BF16 常規量化,在最大限度保障精度的條件下,節省 50% 顯存,吞吐提升 70%。"

此外,Hunyuan-Large 也已經支持 huggingface 格式,支持用户采用 hf-deepspeed 框架進行模型精調。" 我們也支持利用 flash-attn 進行訓練加速,為此,我們把相關的訓練腳本和模型實現也開放給到社區,方便研發者在此基礎上進行後續的模型訓練和精調的操作。"

在此次混元 Large 背後,它的訓練和推理均基于騰訊 Angel 機器學習平台。為了使得混元大模型具備更好的訓練和推理性能,騰訊也将陸續開源混元 AnglePTM 和 AngeIHCF 等大模型工程框架。

這是要通過全套的服務來壯大 MoE 的朋友圈。

其實,這次混元 large 的開源,最有意思的并不只是模型本身,而是對于一向低調的騰訊,難得展示了它在大模型這個技術發展上内部所确定的理念和方向。

首先在技術路線選擇上,面對 MoE 尚未有充分的生态支持,Llama 路線依然占據主流,并且追随它是 " 出成績 " 更直接的選擇時,它依然認定一直堅持的路線是對的。如果相信有一天大家都要走向 MoE,那麼更早的通過開源和生态建設來讓開發者聚攏在它這裏就是個正确的決定。

這讓它看起來有點像堅持 MoE 版的 Meta ——實打實的把大量資源用在了最強的開源模型上。甚至它比 Meta 更笃信它所開源的技術方案—— Meta 的 Llama 在它的 AI 掌舵人 Yann LeCun 眼裏,看起來是個 " 過渡方案 ",他領導的研究部門 FAIR 要追求的世界模型,甚至被形容為是和開源 Llama 完全不同的方向。而騰訊正在開源的,自己業務裏使用的,以及長期投入的方案都是一套。

" 我們内部説,我們不急于為了開源而開源,在内部業務打磨好後再開源。" 康戰輝説。同一天,騰訊還開源了混元 3D 生成大模型,這是業界首個同時支持文字、影像生成 3D 的開源大模型。

" 要開就要有誠意,它必須是與我們自己用的模型同宗同源的。接下來我們還會繼續基于 MoE 架構發布更多的模型。"

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們