今天小編分享的科技經驗:騰訊混元開源兩大新模型:3890 億參數最大 MoE,3D 大模型生成資產僅需 10 秒,歡迎閱讀。
關于大模型開源還是閉源,業界争議已久。有認為同樣參數規模下,開源模型能力不如閉源的,堅定看好閉源路線的,也有認為只有開源才能在推動了技術的發展,促進產業整體繁榮的。
騰訊則又一次選擇了開源。在 5 月開源混元文生圖大模型後,11 月 5 日,騰訊又開源了兩款大模型,分别是最新的 MoE 模型 " 混元 Large" 以及混元 3D 生成大模型 " Hunyuan3D-1.0",支持企業及開發者精調、部署等不同場景的使用需求,可在 HuggingFace、Github 等技術社區直接下載,免費可商用。
騰訊機器學習技術總監,混元算法負責人康戰輝認為,不同的業務需求決定了是否采用開源或閉源策略。對于一些超級復雜的業務,閉源模型更能提供高效的解決方案,因為它能在成本和用戶能力的提升上做到更優。相比之下,開源模型則面向不同類型的開發者,尤其是中小企業和個人開發者,降低了他們的技術門檻,并且能夠通過廣泛的社區合作來推動技術的不斷發展。
他強調,騰訊的戰略是基于長期主義,不急功近利。盡管大模型的開源在市場上如火如荼,但騰訊并不認為開源有 " 早晚之分 "。此次開源也是在經過一年多的探索,在閉源模式下,将產品和技術積累到一定程度後,才選擇了開源。他們的目标是深耕 AI 時代的基礎設施建設,将大模型打磨成熟後開放給開發者,并通過不斷完善與優化來增強社區的信任和認可。
開源 Hunyuan-Large:最大參數的 MoE 架構模型
騰訊 Hunyuan-Large(混元 Large)模型總參數量 389B,激活參數量 52B ,上下文長度高達 256K,公開測評結果顯示,在 CMMLU、MMLU、CEval、MATH 等多學科綜合評測集以及中英文 NLP 任務、代碼和數學等 9 大維度上,騰訊混元 Large 全面領先,超過 Llama3.1、Mixtral 等一流的開源大模型。
此外,混元 Large 模型,與騰訊混元 Pro、混元 Turbo 等不同尺寸的模型共享基礎架構,源自騰訊同一技術體系。
混元 Large 在各類測試集上得分領先現有主流開源模型|圖片來源:騰訊
混元 Large 在模型結構和訓練策略上進行了全面的技術突破。首先,在結構創新上,混元 Large 深入探索了 MoE(混合專家)Scaling Law,推出了共享專家路由和回收路由等優化策略,并采用專家特化的學習率調整策略,顯著提升了不同專家的利用效率和模型的穩定性,從而帶來了效果上的提升。
MoE 模型的優勢在于它通過專家路由機制,只激活部分專家進行計算,因此能夠以較低的計算成本處理更大規模的任務。與 Dense 模型相比,MoE 在訓練和推理時的計算效率更高,同時可以通過增加專家數量,擴展模型的容量和智能水平。
雖然 MoE 有很多優勢,但它在業界應用不多,主要是因為實現起來很難。MoE 也有一些挑戰,比如 MoE 的訓練穩定性較差,涉及多個專家時容易出現負載不均衡,訓練起來非常復雜。其次,由于專家之間的負載差異,某些專家可能訓練不足,導致模型收斂困難,最終影響預測準确性。
在模型後期訓練(Post-Train)中,混元 Large 也做了大量優化。它通過分類提升了數學、邏輯推理、代碼等方面的能力,應對了 SFT(監督微調)領網域多樣、數學和代碼高質量數據難獲取等挑戰,并在一階段離線 DPO(離線偏好優化)基礎上,增設了二階段的在線強化策略,進一步優化了模型的表現。
數據方面,騰訊混元 Large 建立了涵蓋數十個類目、具備高質量和多樣性的中英文數據集,使模型在多方面的效果有明顯提升,尤其在數學和代碼處理方面,性能提高超過 10%。為應對長文閱讀理解和多文檔總結等領網域的測評難題,騰訊還基于公開數據開發了企鵝卷軸(PenguinScrolls)數據集,計劃對外開放,以支持長文方向的技術研究。
這些長文處理能力已應用到騰訊 AI 助手騰訊元寶中,支持最多 256K 長度的上下文處理,相當于整本《三國演義》的文字量。用戶可以一次上傳 10 個文檔,或解析多個微信公眾号鏈接與網址,讓元寶具備深度解析的獨特能力。
在工程平台方面,騰訊自研的 Angel 機器學習平台為混元 Large 提供了強大的訓練和推理支持。針對 MoE 模型的通信效率問題,AngelPTM 框架進行了多項優化,使訓練速度達到了主流框架 DeepSpeed 的 2.6 倍。推理方面,騰訊還推出了 AngelHCF-vLLM 框架,在保證精度的前提下節省了 50% 以上的顯存,相較于 BF16 主流框架提升了 1 倍以上的吞吐量。
目前,混元 Large 模型已上架騰訊雲的 TI 平台。TI 平台不僅配備了大模型精調工具鏈,支持靈活的數據标注,還提供 Angel 加速能力,讓用戶可以便捷地啟動混元 Large 的精調,幫助企業快速訓練出符合業務需求的專屬大模型,顯著提升研發效率。
同時,騰訊還開放了混元大模型 PaaS 平台,支持十餘種 API 服務,涵蓋了文字生成、影像生成、角色扮演、FunctionCall、代碼等多種需求,滿足不同場景下的模型應用。
經過在騰訊内部廣泛應用和驗證,混元大模型的能力已嵌入到包括騰訊元寶、微信公眾号、小程式、微信讀書、騰訊廣告、騰訊遊戲、騰訊會議等近 700 個内部業務和場景中。
混元 3D-1.0 模型:3D 生成開源先鋒
騰訊這次開源的混元 3D 生成大模型則是業界首個同時支持文字、影像生成 3D 的開源大模型,可以幫助 3D 創作者和藝術家實現 3D 資產的自動化生成。
此前,Stability AI 先後與 VAST 合作開源了快速 3D 物體重建模型 TripoSR、與 Tripo AI 聯合開源了 Stable Fast 3D 模型,但整體而言,業界 3D 生成大模型的開源依舊較為稀缺,這主要是因為 3D 生成技術在計算資源、技術門檻和數據獲取方面的要求遠高于 2D 模型。
混元 3D-1.0 模型生成的 3D 資產|圖片來源:騰訊
3D 生成大模型的開發對計算資源要求高,且技術和成本門檻遠超 2D 模型;同時,3D 數據獲取難度大、數據稀缺,進一步限制了開源的可行性。此外,由于 3D 生成模型應用市場較窄,企業傾向于保留技術優勢,騰訊此次開源 Hunyuan3D,成為了推動行業進步的一個重要突破。
此次首批開源模型包含輕量版和标準版,輕量版僅需 10s 即可生成高質量 3D 資產,現已在技術社區公開,包含模型權重、推理代碼、模型算法等完整模型,可供開發者、研究者等各類用戶免費使用。
此外,Hunyuan3D-1.0 也已登陸騰訊雲 HAI 平台,利用其高性價比的 GPU 算力和一鍵部署功能,降低了模型的使用和部署門檻。通過 HAI 的可視化 WebUI 界面,用戶能夠更輕松地使用該模型,為 3D 資產創作提供了更多可能。
Hunyuan3D-1.0 解決了現有 3D 生成模型在生成速度和泛化能力上的不足,能夠幫助 3D 創作者和藝術家自動化生產 3D 資產。該模型不僅具備強大的泛化能力和可控性,還能重建各種尺度的物體,從建築到小型工具或花草都能輕松處理。根據定性和定量的多維度評估,Hunyuan3D-1.0 的生成質量已達到開源模型中的領先水平。
在兩個公開的 3D 數據集—— GSO 和 OmniObject3D 上,Hunyuan3D-1.0 的表現優于主流開源模型,整體能力屬于國際領先水平。從細節層面看,該模型在幾何、紋理、紋理 - 幾何一致性、3D 合理性和指令遵循等方面的表現都非常出色。
在應用方面,3D 生成技術已經開始在騰訊的多個業務中落地。例如,騰訊地圖基于混元 3D 大模型發布了自定義 3D 導航車标功能,用戶可以創作個性化的 3D 車标,相比傳統方案,生成速度提高了 91%。此外,騰訊元寶 APP 也上線了 "3D 角色夢工廠 " 功能,支持個性化的 UGC 3D 人物生成。
之所以在這個時間點選擇開源 3D 生成大模型,騰訊混元 3D 模型負責人郭春超談到,一方面是因為騰訊業務非常豐富,從公司自身業務出發做 3D 生成是極其有必要的,畢竟動漫、遊戲、影視這種偏娛樂類的項目都離不開 3D 資產,另一方面則是因為 3D 生成還處于前半程發展階段,它要進一步發展,需要社區一起努力,需要有更好的模型、更強的生成能力釋放出來,所以這次開源也是為了推動這一領網域的進一步發展。
随着騰訊在自研大模型技術上的不斷進步和應用經驗的積累,開源已成為混元大模型的戰略之一。可以看出,騰訊開源戰略的核心是從公司自身的業務需求出發,逐步開放具有核心競争力的模型。開源的大模型首先要考慮的是騰訊的内部技術積累和業務需求,确保技術的可用性和商業價值。在确保核心模型得到充分應用後,會再逐步推出一些更為小型的模型,以适應多樣化的市場需求,并為更廣泛的開發者提供支持。
另外,此次大模型開源的是參數權重,并不涉及到數據和代碼,但是接下來混元會往前走一步,會把訓練的代碼開源出來,同時會把評估期開源出來, 康戰輝稱,「希望向業界展示更多的誠意」。