大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

元象發布中國最大MoE開源大模型 落地應用登頂港台榜

2024-09-13 简体 HK SG TW

今天小編分享的互聯網經驗:元象發布中國最大MoE開源大模型 落地應用登頂港台榜,歡迎閱讀。

元象 XVERSE 發布中國最大 MoE 開源模型:XVERSE-MoE-A36B,加速 AI 應用低成本部署,将國產開源提升至國際領先水平。該模型總參數 255B,激活參數 36B,達到 100B 模型性能的「跨級」躍升,同時訓練時間減少 30%,推理性能提升 100%,使每 token 成本大幅下降。

元象「高性能全家桶」系列全部開源,無條件免費商用,讓海量中小企業、研究者和開發者能按需選擇。

  MoE(Mixture of Experts)是業界最前沿的混合專家模型架構 ,将多個細分領網域的專家模型組合成一個超級模型,打破了傳統擴展定律(Scaling Law)的局限,可在擴大模型規模時,不顯著增加訓練和推理的計算成本,保持模型性能最大化。出于這個原因,行業前沿模型包括谷歌 Gemini-1.5、OpenAI 的 GPT-4  、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了   MoE。

在多個權威評測中,元象 MoE 效果大幅超越多個同類模型,包括國内千億 MoE 模型   Skywork-MoE、傳統 MoE 霸主 Mixtral-8x22B   以及 3140 億參數的 MoE 開源模型 Grok-1-A86B 等。 

 

免費下載大模型

Hugging Face:https://huggingface.co/xverse/XVERSE-MoE-A36B

魔搭:https://modelscope.cn/models/xverse/XVERSE-MoE-A36B

Github:https://github.com/xverse-ai/XVERSE-MoE-A36B

官網:chat.xverse.cn

落地應用好且省   登頂港台娛樂應用榜

元象此次開源,不僅填補國内空白,也在商業應用上更進一步。

元象基于 MoE 模型自主研發的 AI 角色扮演與互動網文 APP Saylo,通過逼真的 AI 角色扮演和有趣的開放劇情,火遍港台,下載量在中國台灣和香港娛樂榜分别位列第一和第三。

MoE 訓練範式具有「更高性能、更低成本」優勢,元象在通用預訓練基礎上,使用海量劇本數據「繼續預訓練」(Continue Pre-training),并與傳統 SFT(監督微調)或 RLHF(基于人類反饋的強化學習)不同,采用了大規模語料知識注入,讓模型既保持了強大的通用語言理解能力,又大幅提升「劇本」這一特定應用領網域的表現。  

高性能「開源标杆」

元象是國内領先的 AI 與 3D 公司,秉持「通用人工智能   AGI」信仰,持續打造「高性能開源全家桶」,不僅填補國產開源空白,更将其推向了國際領先水平。

2023 年 11 月,此前國内大部分開源參數多在 7B 到 13B,而行業共識是模型達到 50 到 60B 參數門檻,大模型才能 " 智能湧現 ",生态亟需 " 大 " 模型時,元象率先開源了 XVERSE-65B,是當時中國最大參數開源。 

2024 年 1 月,元象又開源全球最長上下文視窗大模型,支持輸入 25 萬漢字,還附手把手訓練教程,讓大模型應用一舉進入 " 長文本時代 "。 

此次國内最大參數 MoE 開源,又是給生态貢獻了一個助推低成本 AI 應用利器。

引領文娛應用

借助在 AI 和 3D 領網域的客戶積累,元象也迅速将大模型推向商用。

2023 年 11 月,元象成為全國最早一批、廣東省前五獲得《生成式人工智能服務管理暫行辦法》國家備案的大模型,具備向全社會開放的產品能力。 

而在更早的 10 月,元象與騰訊音樂聯合推出 lyraXVERSE 加速大模型,并借助該技術全面更新音樂助手 "AI 小琴 " 的問答、聊天與創作能力,讓她情商與智商雙高,為用戶提供個性化、更深入、陪伴感十足的音樂互動體驗。 

元象大模型陸續與 QQ 音樂、虎牙直播、全民 K 歌、騰訊雲等深度合作與應用探索,為文化、娛樂、旅遊、金融領網域打造創新領先的用戶體驗。  

MoE 技術自研與創新

MoE 是目前業界最前沿的模型框架,由于技術較新,國内開源模型或學術研究尚未普及。元象自研 MoE 的高效訓練和推理框架,并持續推動技術創新。

2024 年 4 月推出的 XVERSE-MoE-A4.2B 中,元象推動 MoE 專家架構革新。與傳統 MoE(如 Mixtral 8x7B)将每個專家大小等同于标準 FFN 不同,元象采用更細粒度的專家設計,每個專家大小僅為标準 FFN 的四分之一,提高了模型靈活性與性能;還将專家分為共享專家(Shared Expert)和非共享專家(Non-shared Expert)兩類。共享專家在計算過程中始終保持激活狀态,而非共享專家則根據需要選擇性激活。這種設計有利于将通用知識壓縮至共享專家參數中,減少非共享專家參數間的知識冗餘。 

此次推出 XVERSE-MoE-A36B,繼續在 MoE 效率和效果方面進行技術創新。

(1)效率方面

MoE 架構與 4D 拓撲設計:MoE 架構的關鍵特性是由多個專家組成。由于專家之間需要大量的信息交換,通信負擔極重。為了解決這個問題,我們采用了 4D 拓撲架構,平衡了通信、顯存和計算資源的分配。這種設計優化了計算節點之間的通信路徑,提高了整體計算效率。

專家路由與預丢棄策略:MoE 的另一個特點是 " 專家路由機制 ",即需要對不同的輸入進行分配,并丢棄一些超出專家計算容量的冗餘數據。為此團隊設計一套預丢棄策略,減少不必要的計算和傳輸。同時在計算流程中實現了高效的算子融合,進一步提升模型的訓練性能。

通信與計算重疊:由于 MoE 架構的專家之間需要大量通信,會影響整體計算效率。為此團隊設計了 " 多維度的通信與計算重疊 " 機制,即在進行參數通信的同時,最大比例并行地執行計算任務,從而減少通信等待時間。

(2)效果方面

專家權重:MoE   中的專家總數為   N  ,每個   token   會選擇   topK   個專家參與後續的計算,由于專家容量的限制,每個   token   實際選擇到的專家數為   M,M

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們