今天小編分享的财經經驗:4000億參數,國產大模型硬剛Llama 3?,歡迎閲讀。
頭圖由天工 AI 生成
随着中國加速研發 AI 大模型技術,追趕美國,如今已迎來新的節點。
北京時間 4 月 18 日,Meta 推出了新版開源大模型 Llama 3,并推出了 8B 和 70B 的預訓練和指令微調版本,在眾多性能上都大幅超越了 Llama 2。Meta 官方還表示,公司後續還将推出模型參數超過 400B(4000 億)的更大版本 Llama 3。
然而,就在 4 月 17 日,國内 AI 公司昆侖萬維就已正式推出了 4000 億參數的 " 天工 3.0" 基座開源大模型,成為全球最大的開源 MoE(混合專家)大模型。
相較于上一代,天工 3.0 的模型技術知識能力提升超過 20%,數學、推理、代碼、文創能力提升超過 30%,多模态性能超越 GPT-4V。
同樣在 4 月 17 日,昆侖萬維還宣布,中國首個音樂 SOTA(領網域最佳水準)模型 " 天工 SkyMusic" 音樂大模型也正式開啓公測,綜合體驗遠超于風靡美國的 AI 音樂生成平台 Suno V3。
中國 AI 大模型賽道正迎來 "ChatGPT 時刻 "。
(SkyMusic 綜合性能評分超越 Suno V3,成為最新音樂大模型 SOTA)
4 月 16 日溝通會上,昆侖萬維董事長兼 CEO 方漢對钛媒體 App 編輯表示," 天工 3.0" 開源模型是面向 C 端產品提供支撐的底座大模型,擁有非常強的技術動力,且開源模型是有一定商業模式的。另外,在 B 端,昆侖萬維會提供垂類大模型商業服務。
" 對于天工 SkyMusic,我們應該會一直保持免費對于 C 端提供服務,這個是沒有任何問題的。當然如果有專業人士需要專業定制,我們也可以提供服務。" 方漢稱。
從一年前的追趕、學習 OpenAI,到如今在 AI 音樂生成領網域全面創新和超越,昆侖萬維技術和市場雙管齊下,"All in AGI 與 AIGC" 的戰略正在產生巨大效果,推動 AI 科技與互聯網的跨越式發展。
至此,一個完整的 AI 大模型技術與應用生态正在成型。
三輪 AI 熱潮下,2024 年迎來基礎大模型的關鍵之年
早在 1956 年夏天,計算機科學家約翰 · 麥卡錫(John McCarthy)等人在具有傳奇色彩的 " 達特茅斯會議 " 上創造 " 人工智能 " 這個術語,被認為标志着 AI 技術的正式誕生。
之後半個世紀當中,計算機技術飛速進步,AI 也影響了全球經濟和社會發展。
直至今日,全球共經歷了三次 AI 浪潮。前兩次 AI 浪潮中,所有人期盼的十年 "AI 效應 " 都如泡沫般破滅。不管是因為芯片 " 摩爾定律 " 速度跟不上 AI 的算力要求,還是因為數據量不夠、算法不強、商業化不如預期,均讓我們對 AI 發展都保持長期質疑的态度。
當下,我們終于迎來第三次 AI 浪潮。這一次,AI 算法、算力、數據 " 三駕馬車 " 同步突破。
此次 AI 浪潮爆發的标志性事件有三個:一是 1997 年,IBM " 深藍 " 擊敗國際象棋大師卡斯帕羅夫;二是 2016 年,谷歌 DeepMind 的 " 阿爾法狗 "(AlphaGo)擊敗了韓國圍棋世界冠軍李世乭,标志着 AI 技術的爆發拐點;三是 2022 年,AI 聊天機器人 ChatGPT 的推出,引發全球新一輪 AI 熱潮。
演化經濟學家卡洛塔 · 佩雷斯(Carlota Parez)在《技術革命與金融資本》書中曾提出:從第一次工業革命以來,每兩次重大技術革命的間隔基本都在五十年左右。随着舊技術革命紅利的耗盡,繼續延續使用其成果的收益就會大幅下降。
相比之下,引入全新技術的收益則會上升,而新的技術革命正驅動全球經濟增長。距離 2022 年佩雷斯在書中提到的上一次技術革命—— 1971 年英特爾推出全球第一款微處理器,已經恰好過了五十多年,世界正處在新舊科技革命的臨界點。
當前,全球各國都紛紛将更多資源投注到了下一個技術革命關鍵點——AI,尤其是生成式 AI。甚至説,AI 已經成為 " 國力 " 的象征。
昆侖萬維成立于 2008 年,經歷了互聯網、移動互聯網發展時代,曾是出海平台領網域的龍頭,如今全面加注通用人工智能(AGI)賽道。
方漢表示,早在 2020 年,昆侖萬維集團就開始進入文本大模型的預訓練工作,并于 2022 年 12 月發布了中國首個 13B(130 億)參數級開源文本大模型,是在 ChatGPT 爆發後最快推出國内大模型產品的企業。
到了 2023 年,大模型軍備競賽開啓,昆侖萬維 " 天工 " 也全面 " 狂飙 ":
4 月 17 日,天工 1.0 發布,是國内首個對标 ChatGPT 雙千億級大模型;
8 月 23 日,昆侖萬維公布國内首個 AI 搜索產品——天工 AI 搜索;
今年 2 月 6 日,國内首個在線提供服務的 MOE 大模型 " 天工 2.0" 發布。
如今,在 " 天工 " 大模型發布一周年之際,昆侖萬維終于帶來了全新的最強模型天工 3.0 系列。
方漢坦言,2024 年是底座大模型之年。" 大家知道 AI 底座大模型是 AIGC 堅實的基礎,尤其是文本大模型。文生圖、文生音樂和文生視頻(這些 AIGC 模型)的能力基礎都是文本大模型。如果文本模型能力不夠強,AIGC 能力就會受到很大限制。我們的 4000 億大模型是給我們所有的面向 C 端的產品提供支撐的底座大模型。我的底座大模型做得越好,我的音樂、遊戲、視頻以及動漫產品就會做得更好。所以我們打底座大模型是有非常強的動力的。" 方漢表示。
國内性能最強音樂 AIGC 模型,秒級生成 95 秒歌曲
天工 3.0 的核心主要有兩點:中國首個音樂 AIGC 的 SOTA 模型;4000 億參數、全球最大規模的開源 MOE 大模型。
首先談音頻模型。
據美國風投機構 a16z 上月發布的生成式 AI 產品 Top 100 報告,ChatGPT、Gemini 等通用内容生產應用仍占據消費級 AI 應用大頭。與 6 個月前的排名相比,有兩個新類别首次進入排行:音樂和生產力。
就内容形态來説,音頻内容是相比文本和圖片更好理解人類情感的方式。眾多落地場景之中,音樂創作也成為普羅大眾最易上手和感受到趣味性的 AIGC 場景。另外,對于昆侖萬維這類 AI 公司而言,這是一個将自己推向 C 端市場、獲得大眾認知的有利且重要機會。
目前,AI 音樂生成有兩大技術路徑,包括符号音樂生成路線、大模型音樂音頻生成路線。天工 SkyMusic 采用後者,通過直接學習并生成音頻波形,而不是采用符号音樂生成路線來生成樂譜。這種方式能夠實現樂器、人聲、旋律、音量、音符等元素的一體化端到端生成,為用户帶來更為直觀且便捷的音樂創作體驗。
然而,這種方式不僅艱難、成功經驗稀缺,還需要高昂的算力和資金,因此業内做的人非常少。而且過去很多 AI 音樂研究都集中在無人聲的 BGM 領網域,業界幾乎沒有針對人聲 Song 賽道的有效解決方案。
而天工 SkyMusic,就是在這兩個業界盡快空白的領網域取得了極大突破,大幅提高了 AI 音樂生成大模型的表現,開創了國内音樂音頻生成大模型的成功案例。
具體來説,天工 SkyMusic 采用與 Sora 類似的模型架構,包含三大核心模塊—— Encoder、DiT(Diffusion Transformer)和 Decoder。其中,Large-scale Transformer 負責譜曲,學習 Music Patches 的上下文依賴關系,同時完成音樂可控性;DiT 負責演唱,通過 LDM(Latent Diffusion Model)讓 Music Patches 被還原成高質量音頻。
在 SOTA 模型排行中,與海外頂尖的 AI 音樂大模型 Suno V3 進行橫向測評,天工 SkyMusic 在人聲 &BGM 音質、人聲自然度、發音可懂度等領網域顯著領先對手,并以 6.65 分的綜合得分超越 Suno V3,成為全球 AI 音樂 SOTA 模型。
值得注意的是,天工 SkyMusic 是音樂 AIGC 領網域罕見公開技術路徑的產品。其由 "Encoder-DiT-Decoder" 三大核心模塊組成的技術路線圖,成為業内對 " 音頻路線 + 人聲 Song 路線 " 的重要技術參考。
天工 SkyMusic 發布後,钛媒體 App 編輯第一時間參與體驗。
體驗中發現,相較于行業中的同類產品,天工 SkyMusic 基于天工 3.0 四千億級 MOE 基礎大模型,擁有更多產品優勢。首先它支持示例音源生成音樂,用户可以選擇 " 天工 SkyMusic" 資料庫中現有的參考音樂,也可以上傳自有音樂,不僅可以生成風格、唱腔類似的歌曲,還能給予用户揮灑創意的空間,讓用户創作出更加豐富多彩的音樂作品。
這是钛媒體 App 編輯通過天工 SkyMusic 創作的歌曲,點開就是濃濃的搖滾風。它還支持創作説唱、民謠、放克、古風、電子等多種音樂風格,強化音樂創作生成的多樣性。
另外,得益于對全球最大 2000 萬首歌曲數據集的深度學習訓練,天工 SkyMusic 成功擺脱了傳統音樂 AIGC 產品常見的 "AI 味 "。它生成的中文人聲發音純正,沒有雜音幹擾。不僅如此,它還擁方言歌曲生成能力,能夠演繹包括粵語、四川成都方言、北京方言、上海方言在内的多種中文方言歌曲,并靈活運用顫音、歌劇唱腔等各種演唱技法,極大豐富了音樂創作的表現力。
钛媒體 App 編輯編輯生成的這首《Hi Baby》歌曲,通過幾句歌詞,就能輕松演繹一首 95 秒的英文歌曲,大幅降低音樂創作的門檻,讓每個用户都能夠更加容易創作屬于自己的旋律和歌曲,從而凸顯出天工 SkyMusic 強大的技術能力。
雖然尚處于起步階段,但天工 SkyMusic 已經讓很多用户感受到了音樂創作的樂趣。同時,昆侖萬維選擇将寶貴的技術架構公開,也體現了其對開源社區生态、產業共同發展的重視。預計天工 SkyMusic 将成為行業中最重要的全民音樂創作工具之一,有望推動建立屬于中國的 AI 音樂創作者生态。
然而,天工 SkyMusic 僅僅是昆侖萬維在邁進 AGI 時代的第一站。
自天工 3.0 發布以來,這款全球最大規模的開源 MoE(多專家混合)大模型便引發業界廣泛關注,其不僅擁有超越 Grok 模型的 4000 億參數規模,并且在四大關鍵能力上實現了全面躍升。
具體來説,首先,天工 3.0 基座大模型在邏輯推理能力、語義理解能力、應對復雜需求能力和内容創作能力 4 個方面大幅提升,并且在 MMBench 等多項權威多模态測評結果中超越 GPT-4V。同時,基于模型能力的提升,天工 3.0 集成了 AI 搜索、AI 寫作、AI 長文本閲讀、AI 圖片生成、AI 音樂生成等功能,以及新增了多輪搜索及綜合工具調用、AI 搜索研究模式、AI 搜索增強模式等功能,可以高效地完成產業分析、產品對比等各類復雜需求。
在演示中,研究模式下,天工 3.0 能夠圍繞簡單指令進行相關問題的延伸,自動生成研究大綱、圖譜、實踐總結、思維導圖等,例如,钛媒體 App 編輯讓天工 3.0 研究 "OpenAI 發展歷程 "。在全網搜索後,它能以分段提煉等形式呈現搜索結果,并自動總結大綱、繪制思維導圖。
而在增強模式中," 天工 3.0" 能夠針對用户的復雜 Query 進行拆解、細化,通過追問、信息理解與補全,使其在自然語義理解方面性能更強,更好地面對不确定性知識;同時,在影像生成方面," 天工 3.0" 的改圖擴圖能力取得突破,可以讓它繪制一張風景圖,并逐步在圖中增加新的物品或元素。
如今,對于用户而言," 天工 3.0" 不僅适用于產業分析、市場研究、產品對比、知識管理等工作場景,也适用于内容創作、教育培訓、智能搜索、語音合成、影像和音樂生成等娛樂場景。學生黨、打工人可以利用天工 3.0 的研究模式和增強模式,通過簡單的查詢獲得全面而精煉的資料,文獻搜集、資料匯總等所需的時間大幅縮短,提升工作學習效率。
簡單來説," 天工 3.0" 現已成長為人類工作與生活的好 " 夥伴 "。
根據現在的進展,方漢相信,所有 AIGC 技術将會在兩三年後達到一個足夠可用的高度。
方漢向钛媒體 App 編輯表示,未來,大模型的發展将呈 B 端碎片化,C 端免費化,而 C 端 + 免費可能成為大模型落地的主要路徑。在互聯網時代,谷歌、微軟、百度、阿裏等都是靠這個邏輯成為互聯網巨頭,同樣的道理也将延伸到大模型時代。
" 由于大模型對行業數據的需求,加之數據已經被分割在 B 端的不同碎片,很難有一家企業能夠拿到全部行業的數據,導致 B 端碎片化;同時,中國用户的免費習慣是非常明顯的,所以為 C 端用户提供服務的企業必然是以免費模式為主。" 方漢認為,C 端用户上限高達 80 億,市場前景巨大,而要做到免費,AI UGC(用户生產内容)平台是一個好的商業模式。
方漢強調,移動互聯網時代 " 免費 +to C" 的模式依然适用于 AI 時代。只有 " 免費 +to C" 才會產生 AI 時代的巨頭。這是目前最合适的商業模式,也最容易盈虧平衡。
" 到 2035 年 AGI 終将實現 "
昆侖萬維從 2020 年開始布局 AIGC 和大模型領網域,至今已積累近四年的相關工程研發經驗,且研發投入巨大。
根據昆侖萬維 2023 年第三季度報告,去年前 9 個月公司研發費用達 6.2 億元,同比增長 28.18%。同時,公司十分重視開源生态,天工大模型在開發過程中也得到了開源社區上百位 AI 科學家的助力。
" 目前我們抽成三大業務板塊,其中最重要的板塊就是 AGI 與 AIGC 業務。作為一家海外互聯網平台型企業,我們為什麼會介入大模型或者 AGI 和 AIGC 技術方向?我們是以網遊題材上市的,上市之後我們進行了轉型,在海外大力做平台型業務,經我們從頭孵化的大概千萬級别 DAU 的互聯網平台有 4 — 5 家左右,全部都與内容和社交賽道相關。所以我們一直對于内容生產領網域的革新非常關注。在 2020 年 GPT-3 發布之後,我們非常敏鋭地意識到了這可能是内容生成領網域颠覆性機會。" 方漢曾表示。
2023 年 4 月,昆侖萬維提出 "All in AGI 和 AIGC" 戰略,不局限于單一的產品或技術,而是構建一個完整的 AI 生态系統,逐步了形成 AI 大模型、AI 搜索、AI 音樂、AI 社交、AI 遊戲、AI 視頻六大業務矩陣。
其中,AI 大模型和 AI 搜索作為底座,是所有 AIGC 能力的基礎,音樂、視頻、社交、遊戲等方向則是昆侖萬維在 AGI 道路上的探索,體現了其 AI UGC 平台商業模式。
2024 年 1 月,昆侖萬維集團正式發布面向未來的全新使命、願景和價值觀:" 實現通用人工智能,讓每個人更好地塑造和表達自我 "。
昆侖萬維在願景中稱," 我們深信,到 2035 年左右,通用人工智能(AGI)終将實現,人工智能将擁有,并超越人類的理解、學習、應用、甚至工作的能力,這将極大地推動社會的繁榮。"
事實上,為了做好大模型,昆侖萬維做了很多準備。
在算力層面,昆侖萬維有近萬卡的訓練資源,足夠支撐訓練下一代基于多模态的 MoE 大模型以及視頻生成大模型。在技術上,為了與業内最先進的技術保持同步。
方漢向钛媒體 App 編輯坦言,他每周要閲讀 3~4 篇技術論文,2023 年一共閲讀了 200 多篇論文;還會在一線寫代碼,寫 prompt,他寫 prompt 的能力可能超過公司 90% 的同事;公司所有的算法博士,幾乎都是方漢親自面試的。
在應用層,昆侖萬維的產品矩陣目的就是要打造一個綜合 AI UGC 平台。
針對開源商業模式,方漢認為,在軟體行業,開源一直是一個很有争議性的話題," 收取服務費 " 是軟體行業發展早期的方式,早期開源玩家如 MongoDB 等通過 SSPL 產品授權協定開創了新的商業模式,同時開源也成為了 ToB 企業的市場推廣手段之一。" 開源模型與閉源模型是一個生态的組成部分,不是誰取代誰,而是一個互補關系,都會有自己的生存空間。"
對于模型性能,方漢認為,開源模型與閉源模型的差距已經從落後 2 年以上,追到僅落後 4 — 6 個月了,這證明了兩者的差距是在縮小而非加大。另外,開源模型實際上是一種生态構建器,更有利于滿足于用户的長尾需求。
(圖片來源:钛媒體 App 編輯拍攝)
如今,昆侖萬維已經打開了 AGI 這個 " 未來之門 ",以技術促增長,做長期有價值、難而正确的事,且以開源、開放的生态迎接即将到來的 AGI 時代。
" 公司成立 15 年來,我們一直在創業,每一天都是創業的狀态。今天的我們,迎來了 15 年來最激動人心的創業狀态,因為我們走在科技創業的最激動人心的道路上,但創業精神我們一直從未改變;我們要堅決打掉凍土層,做難而正确的事情。" 昆侖萬維創始人周亞輝表示。
周亞輝坦言,我們當前處在充滿不确定、不确定、復雜和模糊的時代。随着 AGI 加速發展,以及我們認知的不斷迭代,我們對未來的展望也在不斷發生變化。未來三十年,人類要從感知線,變成表達線,整個人類社會在自我表達方面要增加 1000 倍。創作和自我表達在過去很困難,因為工具門檻高,而未來 30 年是自我表達的 30 年,昆侖萬維要用 AI 把人類創作的門檻降的足夠低,讓人們更充分地實現自我表達。
" 我們不追求成為一家‘大而全’的公司,而是希望成為一家‘小而大美’的公司,依靠強大的產品力,打動用户,給世界帶來美好的改變。" 昆侖萬維的目标是,實現通用人工智能,讓每個人更好地塑造和表達自我。
(本文首發于钛媒體 App,作者|林志佳)