解密中國首個“音樂版Sora”

今天小編分享的科學經驗：解密中國首個“音樂版Sora”，歡迎閱讀。

文生圖、文生音頻、文生視頻、AI 搜索引擎……大模型在多模态的進程可謂是愈演愈烈。

而聚焦在國内，有這麼一家公司在 AIGC 大熱潮的前後，單是 " 首個 " 就占了四席：

發布中國首個開源文本大模型

國内首個對标 ChatGPT 的雙千億級大模型

中國首個 AI 搜索

國内首個在線提供服務的 MoE 大模型

不賣關子，這家公司正是昆侖萬維，并且就在最近，它還解鎖了" 中國首個音樂 SOTA 模型——天工音樂大模型 "。

那麼昆侖萬維在多模态大模型的道路中是如何演進的？為何能夠如此精準的先邁出每一步？

在本次中國 AIGC 產業峰會上，昆侖萬維董事長兼 CEO 方漢回答了一切。

為了完整體現方漢的思考，在不改變原意的基礎上，量子位對演講内容進行了編輯整理，希望能給你帶來更多啟發。

中國 AIGC 產業峰會是由量子位主辦的行業峰會，20 位產業代表與會讨論。線下參會觀眾近千人，線上直播觀眾 300 萬，獲得了主流媒體的廣泛關注與報道。

話題要點

天工 3.0 發布，全面超越 MoE 大模型 Grok-1

天工 3.0 在多輪搜索、搜索 " 研究模式 "、智能體方面能力提升

中國首個音樂 AIGC 的 SOTA 模型

……

以下為方漢演講全文：

天工 3.0 正式發布

我今天的演講主題是 " 天工多模态大模型的演進落地 "。

大家知道昆侖萬維是從 2022 年 12 月發布了中國首個開源文本大模型，在 2023 年 4 月 17 日「天工 1.0」發布，2023 年 8 月 23 日發布了國内首個 AI 搜索產品——天工 AI 搜索。

在今天，我們發布了「天工 3.0」，這是中國首個在音樂 AIGC 領網域達到 SOTA 的模型，同時我們将開源 4000 億參數全球最大規模的 MOE 大模型，并且開始啟動公測。

首先，「天工 3.0」目前性能已經全面超越 3140 億參數的 MOE 大模型 Grok-1，是全球第一，這兩個大模型目前都是開源的。

我們可以看到在 MMbench 和 MMbench-CN 這兩個測試集中，我們在性能指标上已經全面超越 GPT-4V，綜合排名全球領先。

「天工 3.0」目前在模型技術支持能力上提升超過 20%，在數學、推理、代碼、文創能力上提升超過 30%。

通過專項的 Agent 訓練，可以應付復雜的需求能力，在内容創作能力上全面更新，目前是能搜能寫能讀能聊能說能畫能聽能唱，在多模态能力上非常全面。

下面可以看到，「天工 3.0」在多輪搜索與綜合工具的調用能力上有了大幅提高。

例如，搜索 " 成都迪斯尼怎麼去 " 大家知道，" 成都迪斯尼 " 是個梗，我們能夠準确識别出來 " 成都迪斯尼 " 是成都的一個小區，同時，大模型把 " 成都迪斯尼 " 的攻略生成出來之後，還會把它總結成一個攻略。

再比如，在問天氣怎麼樣的時候，大模型會把上海的天氣以卡片的形式展現給用戶，最後生成相對應的圖片。

再來看一下「天工 3.0」在搜索能力上的" 研究模式 "，大家可能知道，學生在閱讀文獻的時候，需要總結大綱，再自己畫腦圖。

在以前這類工作非常煩瑣，現在我們可以自動對搜索内容進行總結、自動生成大綱、拷貝到 PowerPoint，就能自動生成 PPT，同時最後再自動生成腦圖。這對所有的研究工作者非常有幫助。

下面我們看一下「天工 3.0」在智能體方面的進展，大家可以很方便地通過非代碼的形式生成智能體，我們看現在生成的智能體在使用之後，可以生成一個關于特斯拉和小米 SU7 車型對比的表格，而且是多模态的生成，這個非常方便。

首個音樂 AIGC 的 SOTA 模型

目前，昆侖萬維以 AI 大模型為底座，已經擁有 AI 社交、AI 遊戲、AI 搜索、AI 大模型、AI 音樂、AI 視頻等六大業務矩陣。

我再給大家分享一下多模态大模型天工 SkyMusic，這是目前首個音樂 AIGC 的 SOTA 模型。給大家聽一下案例，這是龐博（喜劇明星）利用天工 AI 音樂創作的一首歌曲。

我們天工 SkyMusic 與 SONO V3 的版本對比，首先，在人聲 &BGM 音質、人聲自然度、發音可懂度等領網域都有明顯地提升。

我們這個技術模型的架構是類似 Sora 的 DiT 架構，目前數據集已經将近 2000 萬首音樂，這才能在音樂指标上可以超過 SUNO，達到目前的 SOTA，也就是技術指标第一。

我們獨家優勢在于根據示例音源生成音樂的能力，而不是根據标籤來生成音樂。

根據示例音源生成音樂的能力可以讓很多專業創作者用自己的一段小旋律生成完整的音樂，同時在人聲合成方面支持單一語種方案輸出能力，目前已經支撐粵語、四川話、北京話、上海話等多個方言。

最後，我們生成更具辨識度的自然人聲，大家都知道如何區分每個歌手的人聲，在合成上是有比較大的技術難度，我們目前基本上可以根據輸入的語音達到更好的克隆。

目前天工 SkyMusic 音樂創作能力，首先，能夠極大降低音樂創作門檻，人人皆可以歌明志。

大家可以看到，今天在我們公測的天工 SkyMusic 的功能下方，網友們創作的歌曲非常多，創作形式也非常多樣。

之前制作一首歌的成本非常昂貴，因為首先要有音樂的基礎能力，才能去作曲、才能編曲，還要有樂隊幫助你去演奏合成，最後還得有專業的演唱能力，才能完成一首歌的制作。

通過天工 SkyMusic，一個人只要花幾分鍾時間可以完整創作出一首可以發布的歌曲，這樣極大降低了音樂創作門檻。讓每個人可以創作出自己的歌曲。

同時，極大降低了音樂創作成本，對于全體内容行業來說是一個福音。大家知道，在各行各業使用音樂的地方非常多。

之前都有着比較昂貴的授權費用，在今天可以讓各行各業使用的所有通過 AI 生成，成本可以迅速從幾萬塊錢降到幾分錢。

最後，我們也證明了中國研發可以在垂直領網域做到全球的 SOTA，這也是非常有意義的。大家知道，SOTA 這個詞是 "State of the art"，當前技術指标第一的意思。

OpenAI 為什麼現在是全球估值最高的大模型企業？

因為在文本大模型以及視頻生成大模型方面，它一直是全球的 SOTA。對于中國公司來說，能否在垂直領網域取得 SOTA，也是你的企業能夠獲得技術紅利的一個重要因素。

最後我跟大家分享一下，昆侖萬維的使命與目标，是實現通用人工智能，讓每個人更好地塑造和表達自我。

為什麼我們把這個抽成了兩段？

實現通用人工智能就是對标 AGI，我們堅信通過文本大模型和多模态大模型不斷演進，一定會實現通用人工智能；但與此同時，我們也可以通過 AIGC 能力的不斷拓展，讓每個人更好地塑造和表達自我。

我們可以看到從文本生成到影像生成，再到音樂生成以及視頻生成，AIGC 技術的演進能夠讓全世界創作内容的成本極大降低，從而打破強勢文化利用資源來達到的壟斷地位，讓每個少數族群都能夠創作屬于自己的内容，實現真正的文化平權。

這也是我們作為一家在全球幾十個國家都擁有業務的全球互聯網平台企業所希望看到的一個願景。

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~