4000億參數，國產大模型硬剛Llama 3？

今天小編分享的财經經驗：4000億參數，國產大模型硬剛Llama 3？，歡迎閲讀。

頭圖由天工 AI 生成

随着中國加速研發 AI 大模型技術，追趕美國，如今已迎來新的節點。

北京時間 4 月 18 日，Meta 推出了新版開源大模型 Llama 3，并推出了 8B 和 70B 的預訓練和指令微調版本，在眾多性能上都大幅超越了 Llama 2。Meta 官方還表示，公司後續還将推出模型參數超過 400B（4000 億）的更大版本 Llama 3。

然而，就在 4 月 17 日，國内 AI 公司昆侖萬維就已正式推出了 4000 億參數的 " 天工 3.0" 基座開源大模型，成為全球最大的開源 MoE（混合專家）大模型。

相較于上一代，天工 3.0 的模型技術知識能力提升超過 20%，數學、推理、代碼、文創能力提升超過 30%，多模态性能超越 GPT-4V。

同樣在 4 月 17 日，昆侖萬維還宣布，中國首個音樂 SOTA（領網域最佳水準）模型 " 天工 SkyMusic" 音樂大模型也正式開啓公測，綜合體驗遠超于風靡美國的 AI 音樂生成平台 Suno V3。

中國 AI 大模型賽道正迎來 "ChatGPT 時刻 "。

（SkyMusic 綜合性能評分超越 Suno V3，成為最新音樂大模型 SOTA）

4 月 16 日溝通會上，昆侖萬維董事長兼 CEO 方漢對钛媒體 App 編輯表示，" 天工 3.0" 開源模型是面向 C 端產品提供支撐的底座大模型，擁有非常強的技術動力，且開源模型是有一定商業模式的。另外，在 B 端，昆侖萬維會提供垂類大模型商業服務。

" 對于天工 SkyMusic，我們應該會一直保持免費對于 C 端提供服務，這個是沒有任何問題的。當然如果有專業人士需要專業定制，我們也可以提供服務。" 方漢稱。

從一年前的追趕、學習 OpenAI，到如今在 AI 音樂生成領網域全面創新和超越，昆侖萬維技術和市場雙管齊下，"All in AGI 與 AIGC" 的戰略正在產生巨大效果，推動 AI 科技與互聯網的跨越式發展。

至此，一個完整的 AI 大模型技術與應用生态正在成型。

三輪 AI 熱潮下，2024 年迎來基礎大模型的關鍵之年

早在 1956 年夏天，計算機科學家約翰 · 麥卡錫（John McCarthy）等人在具有傳奇色彩的 " 達特茅斯會議 " 上創造 " 人工智能 " 這個術語，被認為标志着 AI 技術的正式誕生。

之後半個世紀當中，計算機技術飛速進步，AI 也影響了全球經濟和社會發展。

直至今日，全球共經歷了三次 AI 浪潮。前兩次 AI 浪潮中，所有人期盼的十年 "AI 效應 " 都如泡沫般破滅。不管是因為芯片 " 摩爾定律 " 速度跟不上 AI 的算力要求，還是因為數據量不夠、算法不強、商業化不如預期，均讓我們對 AI 發展都保持長期質疑的态度。

當下，我們終于迎來第三次 AI 浪潮。這一次，AI 算法、算力、數據 " 三駕馬車 " 同步突破。

此次 AI 浪潮爆發的标志性事件有三個：一是 1997 年，IBM " 深藍 " 擊敗國際象棋大師卡斯帕羅夫；二是 2016 年，谷歌 DeepMind 的 " 阿爾法狗 "（AlphaGo）擊敗了韓國圍棋世界冠軍李世乭，标志着 AI 技術的爆發拐點；三是 2022 年，AI 聊天機器人 ChatGPT 的推出，引發全球新一輪 AI 熱潮。

演化經濟學家卡洛塔 · 佩雷斯（Carlota Parez）在《技術革命與金融資本》書中曾提出：從第一次工業革命以來，每兩次重大技術革命的間隔基本都在五十年左右。随着舊技術革命紅利的耗盡，繼續延續使用其成果的收益就會大幅下降。

相比之下，引入全新技術的收益則會上升，而新的技術革命正驅動全球經濟增長。距離 2022 年佩雷斯在書中提到的上一次技術革命—— 1971 年英特爾推出全球第一款微處理器，已經恰好過了五十多年，世界正處在新舊科技革命的臨界點。

當前，全球各國都紛紛将更多資源投注到了下一個技術革命關鍵點——AI，尤其是生成式 AI。甚至説，AI 已經成為 " 國力 " 的象征。

昆侖萬維成立于 2008 年，經歷了互聯網、移動互聯網發展時代，曾是出海平台領網域的龍頭，如今全面加注通用人工智能（AGI）賽道。

方漢表示，早在 2020 年，昆侖萬維集團就開始進入文本大模型的預訓練工作，并于 2022 年 12 月發布了中國首個 13B（130 億）參數級開源文本大模型，是在 ChatGPT 爆發後最快推出國内大模型產品的企業。

到了 2023 年，大模型軍備競賽開啓，昆侖萬維 " 天工 " 也全面 " 狂飙 "：

4 月 17 日，天工 1.0 發布，是國内首個對标 ChatGPT 雙千億級大模型；

8 月 23 日，昆侖萬維公布國内首個 AI 搜索產品——天工 AI 搜索；

今年 2 月 6 日，國内首個在線提供服務的 MOE 大模型 " 天工 2.0" 發布。

如今，在 " 天工 " 大模型發布一周年之際，昆侖萬維終于帶來了全新的最強模型天工 3.0 系列。

方漢坦言，2024 年是底座大模型之年。" 大家知道 AI 底座大模型是 AIGC 堅實的基礎，尤其是文本大模型。文生圖、文生音樂和文生視頻（這些 AIGC 模型）的能力基礎都是文本大模型。如果文本模型能力不夠強，AIGC 能力就會受到很大限制。我們的 4000 億大模型是給我們所有的面向 C 端的產品提供支撐的底座大模型。我的底座大模型做得越好，我的音樂、遊戲、視頻以及動漫產品就會做得更好。所以我們打底座大模型是有非常強的動力的。" 方漢表示。

國内性能最強音樂 AIGC 模型，秒級生成 95 秒歌曲

天工 3.0 的核心主要有兩點：中國首個音樂 AIGC 的 SOTA 模型；4000 億參數、全球最大規模的開源 MOE 大模型。

首先談音頻模型。

據美國風投機構 a16z 上月發布的生成式 AI 產品 Top 100 報告，ChatGPT、Gemini 等通用内容生產應用仍占據消費級 AI 應用大頭。與 6 個月前的排名相比，有兩個新類别首次進入排行：音樂和生產力。

就内容形态來説，音頻内容是相比文本和圖片更好理解人類情感的方式。眾多落地場景之中，音樂創作也成為普羅大眾最易上手和感受到趣味性的 AIGC 場景。另外，對于昆侖萬維這類 AI 公司而言，這是一個将自己推向 C 端市場、獲得大眾認知的有利且重要機會。

目前，AI 音樂生成有兩大技術路徑，包括符号音樂生成路線、大模型音樂音頻生成路線。天工 SkyMusic 采用後者，通過直接學習并生成音頻波形，而不是采用符号音樂生成路線來生成樂譜。這種方式能夠實現樂器、人聲、旋律、音量、音符等元素的一體化端到端生成，為用户帶來更為直觀且便捷的音樂創作體驗。

然而，這種方式不僅艱難、成功經驗稀缺，還需要高昂的算力和資金，因此業内做的人非常少。而且過去很多 AI 音樂研究都集中在無人聲的 BGM 領網域，業界幾乎沒有針對人聲 Song 賽道的有效解決方案。

而天工 SkyMusic，就是在這兩個業界盡快空白的領網域取得了極大突破，大幅提高了 AI 音樂生成大模型的表現，開創了國内音樂音頻生成大模型的成功案例。

具體來説，天工 SkyMusic 采用與 Sora 類似的模型架構，包含三大核心模塊—— Encoder、DiT（Diffusion Transformer）和 Decoder。其中，Large-scale Transformer 負責譜曲，學習 Music Patches 的上下文依賴關系，同時完成音樂可控性；DiT 負責演唱，通過 LDM（Latent Diffusion Model）讓 Music Patches 被還原成高質量音頻。

在 SOTA 模型排行中，與海外頂尖的 AI 音樂大模型 Suno V3 進行橫向測評，天工 SkyMusic 在人聲 &BGM 音質、人聲自然度、發音可懂度等領網域顯著領先對手，并以 6.65 分的綜合得分超越 Suno V3，成為全球 AI 音樂 SOTA 模型。

值得注意的是，天工 SkyMusic 是音樂 AIGC 領網域罕見公開技術路徑的產品。其由 "Encoder-DiT-Decoder" 三大核心模塊組成的技術路線圖，成為業内對 " 音頻路線 + 人聲 Song 路線 " 的重要技術參考。

天工 SkyMusic 發布後，钛媒體 App 編輯第一時間參與體驗。

體驗中發現，相較于行業中的同類產品，天工 SkyMusic 基于天工 3.0 四千億級 MOE 基礎大模型，擁有更多產品優勢。首先它支持示例音源生成音樂，用户可以選擇 " 天工 SkyMusic" 資料庫中現有的參考音樂，也可以上傳自有音樂，不僅可以生成風格、唱腔類似的歌曲，還能給予用户揮灑創意的空間，讓用户創作出更加豐富多彩的音樂作品。

這是钛媒體 App 編輯通過天工 SkyMusic 創作的歌曲，點開就是濃濃的搖滾風。它還支持創作説唱、民謠、放克、古風、電子等多種音樂風格，強化音樂創作生成的多樣性。

另外，得益于對全球最大 2000 萬首歌曲數據集的深度學習訓練，天工 SkyMusic 成功擺脱了傳統音樂 AIGC 產品常見的 "AI 味 "。它生成的中文人聲發音純正，沒有雜音幹擾。不僅如此，它還擁方言歌曲生成能力，能夠演繹包括粵語、四川成都方言、北京方言、上海方言在内的多種中文方言歌曲，并靈活運用顫音、歌劇唱腔等各種演唱技法，極大豐富了音樂創作的表現力。

钛媒體 App 編輯編輯生成的這首《Hi Baby》歌曲，通過幾句歌詞，就能輕松演繹一首 95 秒的英文歌曲，大幅降低音樂創作的門檻，讓每個用户都能夠更加容易創作屬于自己的旋律和歌曲，從而凸顯出天工 SkyMusic 強大的技術能力。

雖然尚處于起步階段，但天工 SkyMusic 已經讓很多用户感受到了音樂創作的樂趣。同時，昆侖萬維選擇将寶貴的技術架構公開，也體現了其對開源社區生态、產業共同發展的重視。預計天工 SkyMusic 将成為行業中最重要的全民音樂創作工具之一，有望推動建立屬于中國的 AI 音樂創作者生态。

然而，天工 SkyMusic 僅僅是昆侖萬維在邁進 AGI 時代的第一站。

自天工 3.0 發布以來，這款全球最大規模的開源 MoE（多專家混合）大模型便引發業界廣泛關注，其不僅擁有超越 Grok 模型的 4000 億參數規模，并且在四大關鍵能力上實現了全面躍升。

具體來説，首先，天工 3.0 基座大模型在邏輯推理能力、語義理解能力、應對復雜需求能力和内容創作能力 4 個方面大幅提升，并且在 MMBench 等多項權威多模态測評結果中超越 GPT-4V。同時，基于模型能力的提升，天工 3.0 集成了 AI 搜索、AI 寫作、AI 長文本閲讀、AI 圖片生成、AI 音樂生成等功能，以及新增了多輪搜索及綜合工具調用、AI 搜索研究模式、AI 搜索增強模式等功能，可以高效地完成產業分析、產品對比等各類復雜需求。

在演示中，研究模式下，天工 3.0 能夠圍繞簡單指令進行相關問題的延伸，自動生成研究大綱、圖譜、實踐總結、思維導圖等，例如，钛媒體 App 編輯讓天工 3.0 研究 "OpenAI 發展歷程 "。在全網搜索後，它能以分段提煉等形式呈現搜索結果，并自動總結大綱、繪制思維導圖。

而在增強模式中，" 天工 3.0" 能夠針對用户的復雜 Query 進行拆解、細化，通過追問、信息理解與補全，使其在自然語義理解方面性能更強，更好地面對不确定性知識；同時，在影像生成方面，" 天工 3.0" 的改圖擴圖能力取得突破，可以讓它繪制一張風景圖，并逐步在圖中增加新的物品或元素。

如今，對于用户而言，" 天工 3.0" 不僅适用于產業分析、市場研究、產品對比、知識管理等工作場景，也适用于内容創作、教育培訓、智能搜索、語音合成、影像和音樂生成等娛樂場景。學生黨、打工人可以利用天工 3.0 的研究模式和增強模式，通過簡單的查詢獲得全面而精煉的資料，文獻搜集、資料匯總等所需的時間大幅縮短，提升工作學習效率。

簡單來説，" 天工 3.0" 現已成長為人類工作與生活的好 " 夥伴 "。

根據現在的進展，方漢相信，所有 AIGC 技術将會在兩三年後達到一個足夠可用的高度。

方漢向钛媒體 App 編輯表示，未來，大模型的發展将呈 B 端碎片化，C 端免費化，而 C 端 + 免費可能成為大模型落地的主要路徑。在互聯網時代，谷歌、微軟、百度、阿裏等都是靠這個邏輯成為互聯網巨頭，同樣的道理也将延伸到大模型時代。

" 由于大模型對行業數據的需求，加之數據已經被分割在 B 端的不同碎片，很難有一家企業能夠拿到全部行業的數據，導致 B 端碎片化；同時，中國用户的免費習慣是非常明顯的，所以為 C 端用户提供服務的企業必然是以免費模式為主。" 方漢認為，C 端用户上限高達 80 億，市場前景巨大，而要做到免費，AI UGC（用户生產内容）平台是一個好的商業模式。

方漢強調，移動互聯網時代 " 免費 +to C" 的模式依然适用于 AI 時代。只有 " 免費 +to C" 才會產生 AI 時代的巨頭。這是目前最合适的商業模式，也最容易盈虧平衡。

" 到 2035 年 AGI 終将實現 "

昆侖萬維從 2020 年開始布局 AIGC 和大模型領網域，至今已積累近四年的相關工程研發經驗，且研發投入巨大。

根據昆侖萬維 2023 年第三季度報告，去年前 9 個月公司研發費用達 6.2 億元，同比增長 28.18%。同時，公司十分重視開源生态，天工大模型在開發過程中也得到了開源社區上百位 AI 科學家的助力。

" 目前我們抽成三大業務板塊，其中最重要的板塊就是 AGI 與 AIGC 業務。作為一家海外互聯網平台型企業，我們為什麼會介入大模型或者 AGI 和 AIGC 技術方向？我們是以網遊題材上市的，上市之後我們進行了轉型，在海外大力做平台型業務，經我們從頭孵化的大概千萬級别 DAU 的互聯網平台有 4 — 5 家左右，全部都與内容和社交賽道相關。所以我們一直對于内容生產領網域的革新非常關注。在 2020 年 GPT-3 發布之後，我們非常敏鋭地意識到了這可能是内容生成領網域颠覆性機會。" 方漢曾表示。

2023 年 4 月，昆侖萬維提出 "All in AGI 和 AIGC" 戰略，不局限于單一的產品或技術，而是構建一個完整的 AI 生态系統，逐步了形成 AI 大模型、AI 搜索、AI 音樂、AI 社交、AI 遊戲、AI 視頻六大業務矩陣。

其中，AI 大模型和 AI 搜索作為底座，是所有 AIGC 能力的基礎，音樂、視頻、社交、遊戲等方向則是昆侖萬維在 AGI 道路上的探索，體現了其 AI UGC 平台商業模式。

2024 年 1 月，昆侖萬維集團正式發布面向未來的全新使命、願景和價值觀：" 實現通用人工智能，讓每個人更好地塑造和表達自我 "。

昆侖萬維在願景中稱，" 我們深信，到 2035 年左右，通用人工智能（AGI）終将實現，人工智能将擁有，并超越人類的理解、學習、應用、甚至工作的能力，這将極大地推動社會的繁榮。"

事實上，為了做好大模型，昆侖萬維做了很多準備。

在算力層面，昆侖萬維有近萬卡的訓練資源，足夠支撐訓練下一代基于多模态的 MoE 大模型以及視頻生成大模型。在技術上，為了與業内最先進的技術保持同步。

方漢向钛媒體 App 編輯坦言，他每周要閲讀 3~4 篇技術論文，2023 年一共閲讀了 200 多篇論文；還會在一線寫代碼，寫 prompt，他寫 prompt 的能力可能超過公司 90% 的同事；公司所有的算法博士，幾乎都是方漢親自面試的。

在應用層，昆侖萬維的產品矩陣目的就是要打造一個綜合 AI UGC 平台。

針對開源商業模式，方漢認為，在軟體行業，開源一直是一個很有争議性的話題，" 收取服務費 " 是軟體行業發展早期的方式，早期開源玩家如 MongoDB 等通過 SSPL 產品授權協定開創了新的商業模式，同時開源也成為了 ToB 企業的市場推廣手段之一。" 開源模型與閉源模型是一個生态的組成部分，不是誰取代誰，而是一個互補關系，都會有自己的生存空間。"

對于模型性能，方漢認為，開源模型與閉源模型的差距已經從落後 2 年以上，追到僅落後 4 — 6 個月了，這證明了兩者的差距是在縮小而非加大。另外，開源模型實際上是一種生态構建器，更有利于滿足于用户的長尾需求。

（圖片來源：钛媒體 App 編輯拍攝）

如今，昆侖萬維已經打開了 AGI 這個 " 未來之門 "，以技術促增長，做長期有價值、難而正确的事，且以開源、開放的生态迎接即将到來的 AGI 時代。

" 公司成立 15 年來，我們一直在創業，每一天都是創業的狀态。今天的我們，迎來了 15 年來最激動人心的創業狀态，因為我們走在科技創業的最激動人心的道路上，但創業精神我們一直從未改變；我們要堅決打掉凍土層，做難而正确的事情。" 昆侖萬維創始人周亞輝表示。

周亞輝坦言，我們當前處在充滿不确定、不确定、復雜和模糊的時代。随着 AGI 加速發展，以及我們認知的不斷迭代，我們對未來的展望也在不斷發生變化。未來三十年，人類要從感知線，變成表達線，整個人類社會在自我表達方面要增加 1000 倍。創作和自我表達在過去很困難，因為工具門檻高，而未來 30 年是自我表達的 30 年，昆侖萬維要用 AI 把人類創作的門檻降的足夠低，讓人們更充分地實現自我表達。

" 我們不追求成為一家‘大而全’的公司，而是希望成為一家‘小而大美’的公司，依靠強大的產品力，打動用户，給世界帶來美好的改變。" 昆侖萬維的目标是，實現通用人工智能，讓每個人更好地塑造和表達自我。

（本文首發于钛媒體 App，作者｜林志佳）