6000億參數的商湯多模态大模型發布，性能超越GPT-4 Turbo

今天小編分享的互聯網經驗：6000億參數的商湯多模态大模型發布，性能超越GPT-4 Turbo，歡迎閲讀。

（圖片來源：钛媒體 App 編輯拍攝）

商湯正加速更新大模型技術能力。

钛媒體 AGI 獲悉，4 月 23 日下午，人工智能（AI）上市公司商湯科技在上海發布 " 日日新 SenseNova"5.0 多模态大模型系列，采用混合專家（MoE）架構，支持多達 10T Tokens 中英文與訓練數據，推理合成數據高達數千億 Token，推理時上下文視窗可以有效到 200K 左右，擁有端側擴散和語言模型，知識、推理、數學、代碼等綜合能力全面對标 GPT-4 Turbo。

商湯科技表示，這是行業内首個 " 雲、端、邊 " 全棧大模型產品矩陣，以滿足不同規模場景的應用需求。公司技術領跑加速生成式 AI 向產業落地的全面躍遷，實現大模型按需所取。

商湯科技董事長兼 CEO 徐立表示，在尺度定律（Scaling Law）的準則下，商湯持續推動自身大模型研發，會持續探索大模型能力的 KRE 三層架構（知識 - 推理 - 執行），不斷突破大模型能力邊界。

" 我們認為，2024 年是端側大模型爆發的一年。" 徐立在會上表示。

商湯科技董事長兼 CEO 徐立博士

會前與钛媒體 App 編輯對話時，商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛表示，端側模型市場潛力巨大，每年有 30 億部手機，PC 出貨量一年也有 2-3 億台規模，AI PC 可以成為我們每個人的助手，汽車智能化也成為重要發展機遇期，從而能讓大模型普及應用。

" 這也是商湯今年的一個戰略重點。" 王曉剛強調，" 今天我們模型的能力還是歸功于我們的模型參數量、數據量，以及對算力的需求不斷增加下的性能提升。那麼在這個基礎上，未來大模型對于資源的投入、軟硬體基礎設施的要求是越來越高，後面必然導致的一個結果就是，不會有那麼多家去從事大模型，不會形成‘百模’或‘千模大戰’。"

據悉，2023 年 3 月，商湯集團宣布，公司願景和戰略目标轉型為 " 将 AGI 作為核心戰略目标，以期在未來幾年内實現 AGI 技術的重大突破 "。

基于此變革，商湯科技建立并執行 AI for All 的發展目标，并将重點放到以 SenseCore Al 大裝置作為大模型生產的核心平台，以及商湯 AIDCAI 計算中心平台作為大算力 AI 基礎設施能力，從而打造通用能力的多模态大模型，以及垂直行業、更具專長的專業大模型，從根本上降低大模型的下遊應用成本和門檻。

去年 4 月 10 日，商湯首次公布 " 日日新 SenseNova" 大模型體系，以及自研的中文語言大模型應用平台 " 商量 "，參數量達千億，可實現文本生成、影像生成、多模态内容生成等能力與場景應用。

2023 年 7 月、8 月以及今年 1 月，日日新大模型更新到 2.0、3.0 版本以及日日新 V4.0，" 商量 "2.0 和小模型商量 S 版（SenseChat S）等不同參數量級模型版本頁同時發布，可适配移動端等不同終端及場景的應用需求。新的日日新 V4.0 通過提高訓練數據的質量以及實現基礎語言能力的顯著提升，在代碼編寫、數據分析、醫療問答等多個場景中達到與 GPT-4 相匹配的能力，同時還開源對應 7B 和 20B 的兩種參數基模型。

今年 3 月，徐立表示，在 Scaling Law 指引下，大模型正處于技術革命與性能提升的黃金時期。自 2023 年發布以來，商湯 " 日日新 " 大模型的能力每隔三個月都會有顯著提升，實現了萬卡萬參的大模型訓練能力，在基模型、多模态、編程和工具調用、百萬字無損上下文、終端小模型上都達到國内領先水平。

最新 2023 年報顯示，去年基于商湯生成式 AI 收入達到 12 億元人民币，實現 200% 的飛速增長；同時，商湯大模型基礎設施大裝置 SenseCore 總算力規模突破性增長至 12000 petaFLOPS，運營 GPU 數量達 4.5 萬卡，其中國產算力 2000P，已完成 58 款國產芯片适配和應用；另外，生成式 AI 業務中超過 70% 的客户在過去 12 個月内是商湯的新客户，剩下 30% 的存量客户的客單價也錄得約 50% 的增速，截至 3 月，訂單金額超過千萬人民币的客户數已達到數十家，日日新賦能 C 端的調用量實現近 120 倍的增長。

4 月 23 日，商湯技術開放日上，公司正式發布日日新大模型 V5.0，這也是國内首個有能力建立 " 雲、端、邊 " 全棧大模型產品矩陣的企業。具體來看，基于此次技術開放日活動，钛媒體 App 梳理了商湯核心的四大技術板塊：

1、雲端模型

商湯千億大模型 SenseChat（商量）更新到 5.0，達到 6000 億參數，支持 MoE 大幅提升創意寫作能力、推理能力以及總結能力等，相同的中文知識注入後，可獲得更好的理解總結及問答；同時，數理能力、代碼能力及推理能力達到業内領先水平；多模态能力上，支持高清長圖的解析和理解以及文生圖互動式生成，實現復雜的跨文檔知識抽取及總結問答展示，以及具備豐富的多模态互動能力，其大模型在基準測試 MMBench 中綜合得分排名首位。

在主流客觀評測上，日日新 5.0 達到或超越了去年 OpenAI 在開發者大會上發布的 GPT-4 Turbo 版本，同時也幾乎全方位碾壓了近期發布的 Llama 3-70B。

徐立表示，在高階推理，特别是數學上的提升，相比 GPT-4，日日新提升了 100% 多，Llama 2、3 提升了 400% 多，也就是大部分用來提升數據質量的能力構建在推理能力上，推進合成數據的推理。

2、端邊模型

随着大模型技術的快速發展，不同應用場景的需求日益顯現，AI 大模型在智能手機、電腦、VR 眼鏡等終端設備領網域的應用也成為一大趨勢，因此推出 1.8B（18 億）參數規模的 SenseChat-Lite 版本端側⼤模型。

在基準測試中，該端側模型全面超越了 MiniCPM-2B、Phi-2 等同量級的大模型，并且還越級比肩一些 7B、13B 大模型。

徐立稱，這是同等尺度性能最優，跨級尺度全面領先。" 端側大模型，天下武功，唯快不破。"

同時，商湯還推出端雲協同解決方案，可以通過智能化判斷協同發揮端雲各自優勢，部分場景端側處理占比超過 80%，從而顯著降低推理成本；目前，商湯日日新 · 端側大語言模型的推理速度達到業内最快，可在中端平台實現 18.3 字 /s 的平均生成速度，旗艦平台更是達到了 78.3 字 /s；而文生圖中，擴散模型端側 LDM-AI 擴圖技術推理速度小于 1.5 秒，比友商雲端 app 快 10 倍，支持輸出 1200 萬像素及以上的高清圖片，支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等影像編輯功能。

王曉剛對钛媒體 AGI 表示，商湯在端側模型做的比較好。過去一年裏，公司在雲端給手機、汽車客户做提供服務時，還針對這些終端用户需求進行大量改進和開發，整個效果是跟雲端模型是對齊的，體驗上會有一個特别大的優勢。此次通過稀疏模型的激活，可大大節省運算成本，降低端側模型功耗。

3、企業一體機

此次活動上，針對于金融、代碼、醫療、政務等行業的企業級大模型應用需求，商湯正式推出企業級大模型一體機，可同時支持企業級千億模型加速和知識檢索硬體加速，實現本地化部署，即買即用，降低企業應用大模型的門檻。相比行業同類產品，推理成本節約 80%，檢索大大加速，CPU 工作負載 50%。

具體來説，商湯企業級大模型一體機采用 "2-42" 架構，高密一體機，平台同級性能最強，擁有高速 4 卡互連，顯存可達 256GB，互聯速度可達 448GB/s，算力可達 2P FLOPS@半精度。

其中，小浣熊 · 代碼大模型一體機輕量版價格為每台 35 萬元人民币起。徐立提到，這款產品具有性價比、可用性、安全性、低門檻等優勢。

4、大模型 Agents 和應用

整體來説，基于通用 AI 基礎設施的 SenseCore、" 日日新 " 大模型體系，商湯研發了多個生成式 AI 產品，如商量、秒畫、如影、格物、瓊宇、大醫以及最新的小浣熊家族系列，均在 5.0 版本中有更新。

以小浣熊為例。商湯新的小浣熊系列支持端側，以及不止有代碼小浣熊，還有辦公小浣熊等，支持更多的場景應用；秒畫則全面更新更新，支持更精細的詞語。

徐立表示，現在發布的類似于代碼小浣熊機器人，可以端到端，至于用自然語言去寫代碼目前來看還不能完全自動，原因是人類的自然語言有天然的奇異性。

另外，商湯還公布 " 文生視頻 " 等領網域新的技術突破。

徐立在現場播放了三段完全由商湯大模型生成的視頻，并強調 " 文生視頻 " 平台對于人物、動作和場景的可控性，但并沒有正式發布 " 文生視頻 " 產品；而針對數字人，商湯還發布過商湯 · 拟人語言大模型，讓虛拟人物感受真實。

徐立表示，商湯團隊希望持續推動整個 AI 產業的變化，特别是 AI 2.0 時代的轉型。

王曉剛對钛媒體 App 表示，各個模型之間并不是孤立存在的。商湯多模态模型是以語言模型為基礎，而文生視頻模型在網絡的架構、數據生產的管線、研發的流程上是大量地借鑑去年商湯文生圖的模型，所以模型之間也是相互關聯的。同時，商湯背後積累大量 know-how。

" 今天大模型發展最重要的不是數量到底是有幾個模型存下來，最重要的還是在模型的差異化上。所以今天説大戰也好，卷也好，主要體現在我們缺少差異化。所以怎麼來帶來我們的差異化？要有創新，今天這些研發模式還存在着一些問題，比如當我們看到 OpenAI 發布一個模型時，知道什麼樣的模型，什麼樣的功能是可以做到的時候，大家就蜂擁而上做類似的東西。對于别人沒有嘗試過，沒有做出來東西，它的不确定性高、有投入風險時，又有很少有人在這方面做投入，所以可以看到商湯在大模型發展的思路上，跟其他很多公司是不一樣的。" 王曉剛表示。

王曉剛還向钛媒體 App 提到，" 絕影 " 正專注于智能汽車發展，不止有自主權和更大投入，而且會包括商湯基礎能力支持。而對于整個商湯來説，未來發展的重點不是做實體的機器人，而是打造機器人的 " 大腦 "。

" 這是我們最擅長且應該發揮價值的地方。" 王曉剛表示。

王曉剛強調，AI 大模型是一個長期投入、長期競争的過程。在這條路上，商湯還是非常堅定會往前繼續走，而且在這基礎之上會與很多合作夥伴、生态一起去支持這些成果和基礎能力。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）