今天小編分享的互聯網經驗:6000億參數的商湯多模态大模型發布,性能超越GPT-4 Turbo,歡迎閲讀。
(圖片來源:钛媒體 App 編輯拍攝)
商湯正加速更新大模型技術能力。
钛媒體 AGI 獲悉,4 月 23 日下午,人工智能(AI)上市公司商湯科技在上海發布 " 日日新 SenseNova"5.0 多模态大模型系列,采用混合專家(MoE)架構,支持多達 10T Tokens 中英文與訓練數據,推理合成數據高達數千億 Token,推理時上下文視窗可以有效到 200K 左右,擁有端側擴散和語言模型,知識、推理、數學、代碼等綜合能力全面對标 GPT-4 Turbo。
商湯科技表示,這是行業内首個 " 雲、端、邊 " 全棧大模型產品矩陣,以滿足不同規模場景的應用需求。公司技術領跑加速生成式 AI 向產業落地的全面躍遷,實現大模型按需所取。
商湯科技董事長兼 CEO 徐立表示,在尺度定律(Scaling Law)的準則下,商湯持續推動自身大模型研發,會持續探索大模型能力的 KRE 三層架構(知識 - 推理 - 執行),不斷突破大模型能力邊界。
" 我們認為,2024 年是端側大模型爆發的一年。" 徐立在會上表示。
商湯科技董事長兼 CEO 徐立博士
會前與钛媒體 App 編輯對話時,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛表示,端側模型市場潛力巨大,每年有 30 億部手機,PC 出貨量一年也有 2-3 億台規模,AI PC 可以成為我們每個人的助手,汽車智能化也成為重要發展機遇期,從而能讓大模型普及應用。
" 這也是商湯今年的一個戰略重點。" 王曉剛強調," 今天我們模型的能力還是歸功于我們的模型參數量、數據量,以及對算力的需求不斷增加下的性能提升。那麼在這個基礎上,未來大模型對于資源的投入、軟硬體基礎設施的要求是越來越高,後面必然導致的一個結果就是,不會有那麼多家去從事大模型,不會形成‘百模’或‘千模大戰’。"
據悉,2023 年 3 月,商湯集團宣布,公司願景和戰略目标轉型為 " 将 AGI 作為核心戰略目标,以期在未來幾年内實現 AGI 技術的重大突破 "。
基于此變革,商湯科技建立并執行 AI for All 的發展目标,并将重點放到以 SenseCore Al 大裝置作為大模型生產的核心平台,以及商湯 AIDCAI 計算中心平台作為大算力 AI 基礎設施能力,從而打造通用能力的多模态大模型,以及垂直行業、更具專長的專業大模型,從根本上降低大模型的下遊應用成本和門檻。
去年 4 月 10 日,商湯首次公布 " 日日新 SenseNova" 大模型體系,以及自研的中文語言大模型應用平台 " 商量 ",參數量達千億,可實現文本生成、影像生成、多模态内容生成等能力與場景應用。
2023 年 7 月、8 月以及今年 1 月,日日新大模型更新到 2.0、3.0 版本以及日日新 V4.0," 商量 "2.0 和小模型商量 S 版(SenseChat S)等不同參數量級模型版本頁同時發布,可适配移動端等不同終端及場景的應用需求。新的日日新 V4.0 通過提高訓練數據的質量以及實現基礎語言能力的顯著提升,在代碼編寫、數據分析、醫療問答等多個場景中達到與 GPT-4 相匹配的能力,同時還開源對應 7B 和 20B 的兩種參數基模型。
今年 3 月,徐立表示,在 Scaling Law 指引下,大模型正處于技術革命與性能提升的黃金時期。自 2023 年發布以來,商湯 " 日日新 " 大模型的能力每隔三個月都會有顯著提升,實現了萬卡萬參的大模型訓練能力,在基模型、多模态、編程和工具調用、百萬字無損上下文、終端小模型上都達到國内領先水平。
最新 2023 年報顯示,去年基于商湯生成式 AI 收入達到 12 億元人民币,實現 200% 的飛速增長;同時,商湯大模型基礎設施大裝置 SenseCore 總算力規模突破性增長至 12000 petaFLOPS,運營 GPU 數量達 4.5 萬卡,其中國產算力 2000P,已完成 58 款國產芯片适配和應用;另外,生成式 AI 業務中超過 70% 的客户在過去 12 個月内是商湯的新客户,剩下 30% 的存量客户的客單價也錄得約 50% 的增速,截至 3 月,訂單金額超過千萬人民币的客户數已達到數十家,日日新賦能 C 端的調用量實現近 120 倍的增長。
4 月 23 日,商湯技術開放日上,公司正式發布日日新大模型 V5.0,這也是國内首個有能力建立 " 雲、端、邊 " 全棧大模型產品矩陣的企業。具體來看,基于此次技術開放日活動,钛媒體 App 梳理了商湯核心的四大技術板塊:
1、雲端模型
商湯千億大模型 SenseChat(商量)更新到 5.0,達到 6000 億參數,支持 MoE 大幅提升創意寫作能力、推理能力以及總結能力等,相同的中文知識注入後,可獲得更好的理解總結及問答;同時,數理能力、代碼能力及推理能力達到業内領先水平;多模态能力上,支持高清長圖的解析和理解以及文生圖互動式生成,實現復雜的跨文檔知識抽取及總結問答展示,以及具備豐富的多模态互動能力,其大模型在基準測試 MMBench 中綜合得分排名首位。
在主流客觀評測上,日日新 5.0 達到或超越了去年 OpenAI 在開發者大會上發布的 GPT-4 Turbo 版本,同時也幾乎全方位碾壓了近期發布的 Llama 3-70B。
徐立表示,在高階推理,特别是數學上的提升,相比 GPT-4,日日新提升了 100% 多,Llama 2、3 提升了 400% 多,也就是大部分用來提升數據質量的能力構建在推理能力上,推進合成數據的推理。
2、端邊模型
随着大模型技術的快速發展,不同應用場景的需求日益顯現,AI 大模型在智能手機、電腦、VR 眼鏡等終端設備領網域的應用也成為一大趨勢,因此推出 1.8B(18 億)參數規模的 SenseChat-Lite 版本端側⼤模型。
在基準測試中,該端側模型全面超越了 MiniCPM-2B、Phi-2 等同量級的大模型,并且還越級比肩一些 7B、13B 大模型。
徐立稱,這是同等尺度性能最優,跨級尺度全面領先。" 端側大模型,天下武功,唯快不破。"
同時,商湯還推出端雲協同解決方案,可以通過智能化判斷協同發揮端雲各自優勢,部分場景端側處理占比超過 80%,從而顯著降低推理成本;目前,商湯日日新 · 端側大語言模型的推理速度達到業内最快,可在中端平台實現 18.3 字 /s 的平均生成速度,旗艦平台更是達到了 78.3 字 /s;而文生圖中,擴散模型端側 LDM-AI 擴圖技術推理速度小于 1.5 秒,比友商雲端 app 快 10 倍,支持輸出 1200 萬像素及以上的高清圖片,支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等影像編輯功能。
王曉剛對钛媒體 AGI 表示,商湯在端側模型做的比較好。過去一年裏,公司在雲端給手機、汽車客户做提供服務時,還針對這些終端用户需求進行大量改進和開發,整個效果是跟雲端模型是對齊的,體驗上會有一個特别大的優勢。此次通過稀疏模型的激活,可大大節省運算成本,降低端側模型功耗。
3、企業一體機
此次活動上,針對于金融、代碼、醫療、政務等行業的企業級大模型應用需求,商湯正式推出企業級大模型一體機,可同時支持企業級千億模型加速和知識檢索硬體加速,實現本地化部署,即買即用,降低企業應用大模型的門檻。相比行業同類產品,推理成本節約 80%,檢索大大加速,CPU 工作負載 50%。
具體來説,商湯企業級大模型一體機采用 "2-42" 架構,高密一體機,平台同級性能最強,擁有高速 4 卡互連,顯存可達 256GB,互聯速度可達 448GB/s,算力可達 2P FLOPS@半精度。
其中,小浣熊 · 代碼大模型一體機輕量版價格為每台 35 萬元人民币起。徐立提到,這款產品具有性價比、可用性、安全性、低門檻等優勢。
4、大模型 Agents 和應用
整體來説,基于通用 AI 基礎設施的 SenseCore、" 日日新 " 大模型體系,商湯研發了多個生成式 AI 產品,如商量、秒畫、如影、格物、瓊宇、大醫以及最新的小浣熊家族系列,均在 5.0 版本中有更新。
以小浣熊為例。商湯新的小浣熊系列支持端側,以及不止有代碼小浣熊,還有辦公小浣熊等,支持更多的場景應用;秒畫則全面更新更新,支持更精細的詞語。
徐立表示,現在發布的類似于代碼小浣熊機器人,可以端到端,至于用自然語言去寫代碼目前來看還不能完全自動,原因是人類的自然語言有天然的奇異性。
另外,商湯還公布 " 文生視頻 " 等領網域新的技術突破。
徐立在現場播放了三段完全由商湯大模型生成的視頻,并強調 " 文生視頻 " 平台對于人物、動作和場景的可控性,但并沒有正式發布 " 文生視頻 " 產品;而針對數字人,商湯還發布過商湯 · 拟人語言大模型,讓虛拟人物感受真實。
徐立表示,商湯團隊希望持續推動整個 AI 產業的變化,特别是 AI 2.0 時代的轉型。
王曉剛對钛媒體 App 表示,各個模型之間并不是孤立存在的。商湯多模态模型是以語言模型為基礎,而文生視頻模型在網絡的架構、數據生產的管線、研發的流程上是大量地借鑑去年商湯文生圖的模型,所以模型之間也是相互關聯的。同時,商湯背後積累大量 know-how。
" 今天大模型發展最重要的不是數量到底是有幾個模型存下來,最重要的還是在模型的差異化上。所以今天説大戰也好,卷也好,主要體現在我們缺少差異化。所以怎麼來帶來我們的差異化?要有創新,今天這些研發模式還存在着一些問題,比如當我們看到 OpenAI 發布一個模型時,知道什麼樣的模型,什麼樣的功能是可以做到的時候,大家就蜂擁而上做類似的東西。對于别人沒有嘗試過,沒有做出來東西,它的不确定性高、有投入風險時,又有很少有人在這方面做投入,所以可以看到商湯在大模型發展的思路上,跟其他很多公司是不一樣的。" 王曉剛表示。
王曉剛還向钛媒體 App 提到," 絕影 " 正專注于智能汽車發展,不止有自主權和更大投入,而且會包括商湯基礎能力支持。而對于整個商湯來説,未來發展的重點不是做實體的機器人,而是打造機器人的 " 大腦 "。
" 這是我們最擅長且應該發揮價值的地方。" 王曉剛表示。
王曉剛強調,AI 大模型是一個長期投入、長期競争的過程。在這條路上,商湯還是非常堅定會往前繼續走,而且在這基礎之上會與很多合作夥伴、生态一起去支持這些成果和基礎能力。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)