元象發布中國最大MoE開源大模型落地應用登頂港台榜

今天小編分享的互聯網經驗：元象發布中國最大MoE開源大模型落地應用登頂港台榜，歡迎閲讀。

元象 XVERSE 發布中國最大 MoE 開源模型：XVERSE-MoE-A36B，加速 AI 應用低成本部署，将國產開源提升至國際領先水平。該模型總參數 255B，激活參數 36B，達到 100B 模型性能的「跨級」躍升，同時訓練時間減少 30%，推理性能提升 100%，使每 token 成本大幅下降。

元象「高性能全家桶」系列全部開源，無條件免費商用，讓海量中小企業、研究者和開發者能按需選擇。

MoE（Mixture of Experts）是業界最前沿的混合專家模型架構，将多個細分領網域的專家模型組合成一個超級模型，打破了傳統擴展定律（Scaling Law）的局限，可在擴大模型規模時，不顯著增加訓練和推理的計算成本，保持模型性能最大化。出于這個原因，行業前沿模型包括谷歌 Gemini-1.5、OpenAI 的 GPT-4 、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多個權威評測中，元象 MoE 效果大幅超越多個同類模型，包括國内千億 MoE 模型 Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B 以及 3140 億參數的 MoE 開源模型 Grok-1-A86B 等。

免費下載大模型

Hugging Face：https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭：https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github：https://github.com/xverse-ai/XVERSE-MoE-A36B

官網：chat.xverse.cn

落地應用好且省登頂港台娛樂應用榜

元象此次開源，不僅填補國内空白，也在商業應用上更進一步。

元象基于 MoE 模型自主研發的 AI 角色扮演與互動網文 APP Saylo，通過逼真的 AI 角色扮演和有趣的開放劇情，火遍港台，下載量在中國台灣和香港娛樂榜分别位列第一和第三。

MoE 訓練範式具有「更高性能、更低成本」優勢，元象在通用預訓練基礎上，使用海量劇本數據「繼續預訓練」（Continue Pre-training），并與傳統 SFT（監督微調）或 RLHF（基于人類反饋的強化學習）不同，采用了大規模語料知識注入，讓模型既保持了強大的通用語言理解能力，又大幅提升「劇本」這一特定應用領網域的表現。

高性能「開源标杆」

元象是國内領先的 AI 與 3D 公司，秉持「通用人工智能 AGI」信仰，持續打造「高性能開源全家桶」，不僅填補國產開源空白，更将其推向了國際領先水平。

2023 年 11 月，此前國内大部分開源參數多在 7B 到 13B，而行業共識是模型達到 50 到 60B 參數門檻，大模型才能 " 智能湧現 "，生态亟需 " 大 " 模型時，元象率先開源了 XVERSE-65B，是當時中國最大參數開源。

2024 年 1 月，元象又開源全球最長上下文視窗大模型，支持輸入 25 萬漢字，還附手把手訓練教程，讓大模型應用一舉進入 " 長文本時代 "。

此次國内最大參數 MoE 開源，又是給生态貢獻了一個助推低成本 AI 應用利器。

引領文娛應用

借助在 AI 和 3D 領網域的客户積累，元象也迅速将大模型推向商用。

2023 年 11 月，元象成為全國最早一批、廣東省前五獲得《生成式人工智能服務管理暫行辦法》國家備案的大模型，具備向全社會開放的產品能力。

而在更早的 10 月，元象與騰訊音樂聯合推出 lyraXVERSE 加速大模型，并借助該技術全面更新音樂助手 "AI 小琴 " 的問答、聊天與創作能力，讓她情商與智商雙高，為用户提供個性化、更深入、陪伴感十足的音樂互動體驗。

元象大模型陸續與 QQ 音樂、虎牙直播、全民 K 歌、騰訊雲等深度合作與應用探索，為文化、娛樂、旅遊、金融領網域打造創新領先的用户體驗。

MoE 技術自研與創新

MoE 是目前業界最前沿的模型框架，由于技術較新，國内開源模型或學術研究尚未普及。元象自研 MoE 的高效訓練和推理框架，并持續推動技術創新。

2024 年 4 月推出的 XVERSE-MoE-A4.2B 中，元象推動 MoE 專家架構革新。與傳統 MoE（如 Mixtral 8x7B）将每個專家大小等同于标準 FFN 不同，元象采用更細粒度的專家設計，每個專家大小僅為标準 FFN 的四分之一，提高了模型靈活性與性能；還将專家分為共享專家（Shared Expert）和非共享專家（Non-shared Expert）兩類。共享專家在計算過程中始終保持激活狀态，而非共享專家則根據需要選擇性激活。這種設計有利于将通用知識壓縮至共享專家參數中，減少非共享專家參數間的知識冗餘。