“商量2.0”的進化，站在商湯科技的大模型布局當前

今天小編分享的科技經驗：“商量2.0”的進化，站在商湯科技的大模型布局當前，歡迎閱讀。

我們正在經歷一場聲勢浩大的 AI 新基建大潮。

半年之内，大模型從小範圍共識迅速擴散。中信所發布的報告顯示，目前已發布的參數模型超過 10 億的大模型數量已經接近 80 個，一半來自企業，一半來自科研機構。

國内大模型生态逐漸形成的過程中，也開始剝離對 OpenAI 的追随逐漸尋找适合自己的道路。衡量大模型成功與否的标準，也從硬橋硬馬的參數競賽，來到了真刀真槍的解決問題上。

商湯科技在今年 4 月首次公布了 " 日日新 SenseNova" 的大模型體系，發布了包括自研中文大語言模型 " 商量 SenseChat" 在内的多個 AI 大模型及應用。近日在世界人工智能大會上，商湯科技宣布了 " 日日新 SenseNova 大模型 " 體系的第一次重大迭代。大語言模型 " 商量 " 更新到 2.0 版本。

它更強了。在整個商湯科技大模型布局體系中，它的作用也愈發明顯。

更強的 " 商量 2.0"

怎麼直觀體現 " 商量 2.0" 的能力提升？商湯科技董事長兼 CEO 徐立在現場演示了老子與孔子之間的一場并不存在的對話。

" 商量 2.0" 的回答圍繞 " 道 " 來進行。孔子向老子問道，老子雖然已經悟道，但無法與孔子言說，只是拂袖而去。這一場演繹出的對話行雲流水。" 商量 2.0" 甚至在文中加了一個玩笑：

孔子曰：" 吾聞夫子大名，今日得一見，實乃三生有幸！"

老子笑道：" 非也，吾與汝同道而行，何來‘三生’？"

并且依據問題，整個對話以文言形式出現。并且為了避免混淆，" 商量 2.0" 也在回答的第一句話寫明了 " 這只是虛構之作，不應被視為歷史的真實記錄 " 這樣的前提。

" 商量 1.0" 首次推出時，現場的演示已經展現了它優秀的多輪對話以及人機共創能力。三個月後，" 商量 2.0" 在知識信息準确性、邏輯判斷能力、上下文理解能力、創作性等方面都有了更多提升。

比如用 " 商量 2.0" 來做旅行規劃，并且吩咐它做成表格：

或者來考驗考驗關于 " 女朋友說的都對 " 的事：

甚至不只是能讀懂女朋友，" 商量 2.0" 還能讀出點反諷或者陰陽怪氣的語氣了：

這三個月 " 商量 2.0" 到底經歷了什麼，其實看看幾場考試結果就知道了。在全球範圍内的三個權威大語言模型評測基準（MMLU、AGIEval、C-Eval）的測評結果中，" 商量 2.0" 的表現都超過了 ChatGPT。

除此之外，可能有一些人在前面老子與孔子對話的演示照片中注意到了 " 商量 2.0" 出現了 XL 和 S 兩個版本的分屏演示，這是 " 商量 2.0" 在更新後增加了更多不同參數尺寸的大模型以供客戶選擇，其中最小參數的模型版本甚至可以跑在手機終端上。

在語言上 " 商量 2.0" 新增了阿拉伯語和粵語等新語種。支持簡體中文、繁體中文以及英語等多語言之間的互動。并且 " 商量 2.0" 對超長文本的支持，也從 2k 提升到 32k，能夠更加充分理解上下文。

對于商湯科技這樣核心面向 ToB 的大模型廠商來說，大模型本身的素質只是起點，企業客戶如何以自己的需求給大模型定義出具體輪廓，後者如何實現穩定的迭代流程并一步步逼近真實的痛點，是最終分勝負的地方。

開放知識庫融合能力

商湯科技訓練出一個具備超強的理解、對話、推理等能力的 " 商量 2.0" 後，企業客戶還可以用自己沉澱下來的企業知識讓大模型變成能夠服務好自己企業的 " 專業人才 "。

如何高效解決這些工程問題非常重要。

商湯科技此次推出的 " 商量 2.0" 新增了知識庫融合接口，讓企業可以無需等待基礎大模型的迭代更新，快速擁有專業知識和能力。融合了知識庫後，可以增強模型對知識更新理解的能力，加強知識的快速理解和獲取，同時客戶訓練模型的成本會大幅降低。

商湯科技聯合創始人、首席科學家王曉剛表示：" 有了知識庫，不需要進入到我們的模型本身，就可以比較簡單、方便地将這個領網域的相應知識總結在一起 "，并且因為信息更加準确，也解決了幻覺的問題。

作為效率工具的數字人

" 商量 2.0" 的全面更新的同時，" 日日新 SenseNova 大模型 " 體系内 AIGC 平台能力也在不斷突破，并且在融合語言大模型能力後，實現了跨越式提升。

比如前面提到的文生圖創作平台 " 秒畫 " 此次更新到了 3.0 版本，模型參數提升到了 70 億量級，生成圖片的細節刻畫達到專業攝影級别。而在提示詞這個頭疼問題上，" 商量 2.0" 為 " 秒畫 3.0" 提供了提示詞的自動擴展能力。這意味着用戶只需要少量簡單的提示詞就可以達到一張細節豐富的影像結果。

而在數字人領網域，此次商湯科技的數字人視頻生成平台 " 如影 " 也更新到了 2.0 版本，" 如影 2.0" 的語音和口型流暢度的提升超過 30%，并且可以實現 4K 視頻效果。發布會上，經濟學家任澤平、延參法師以及徐立本人的數字人形象現身，效果足以亂真。

在大模型的落地場景中，數字人是一個非常重要的承載方式，近日十分火熱的數字人直播帶貨就是一個典型場景。而直播帶貨包括短視頻也是 " 如影 2.0" 在 3 個月内測和公測中間，客戶最聚焦的場景之一。

商湯科技數字文娛事業部總經理栾青表示，在 AIGC 這個大框架内，" 商量 2.0" 可以承擔短視頻直播的文案和劇本創作。而 " 如影 2.0" 如何在交流上能夠緊跟潮流，也要依靠 " 商量 2.0" 的語言大模型能力去學習時新的短視頻語料。

短視頻和直播場景之外，" 如影 2.0" 正在加速進入各行各業。

比如保險行業，每一個保險專員都有為客戶宣傳新產品或是其他個性化的服務型内容輸出需求，" 如影 2.0" 可以在客戶的生日或某個理财產品發布的節點去代替保險專員做個性化的内容和服務；在教育行業，" 如影 2.0" 已經開始協助國内頭部職業教育平台的教師制作教育素材，解決内部對視頻制作的需求。

" 數字人是一個很典型的企業内部的效率工具。" 栾青表示。

如影作為一個 AIGC 創作平台未來會繼續在視頻生成領網域做深，栾青認為這是由于内容創作正在經歷一個從文字、圖片到視頻的維度變化。

邁向多模态

由于圖片與視頻信息在真實世界中的占比極大，遠超語言信息，對于真實世界的理解需求讓基礎大模型的未來一定會走向多模态，這一點透過 " 商量 2.0" 已經初見端倪。

除了文字，" 商量 2.0" 擁有了對圖片和視頻内容的分析能力。

比如，如上圖展示，" 商量 2.0" 可以在一張雜亂的辦公桌照片中識别出具體物件之後，結合每個物品的特性來回答 " 當你感覺熱時，你會做什麼 " 這樣接近流程設計的開放問題；或者在看到一張菜單照片後，幫助用戶在一個限定價格區間内給出點菜方案。

最初從計算機視覺的研究切入 AI 領網域，已經跨過一次 AI 浪潮的商湯科技更确信這一次大模型拉起的浪潮會是一次真正的機會。

現在的大模型研究都是基于 transformer 網絡架構。" 商湯從 2019 年開始從事大模型研究，那時候做視覺走的就是這條路線 "，在商湯科技聯合創始人、首席科學家王曉剛看來，今天一些視覺标準和自然語言标準正在逐漸趨向融合，" 我們往多模态方向發展的時候，語言、視覺開始有更加深度的融合，就體現出比較強的這方面的積累和能力。"

我們現實生活當中遇到的很多應用場景，如在自動駕駛、機器人等等一系列領網域，都要運用到多模态。" 但是多模态的數據和一些任務，往往不容易獲取，需要有很深的行業積累，這方面也是商湯的優勢所在。" 王曉剛介紹到。

在今年世界人工智能大會，首次公開亮相三個月後，商湯 " 日日新 SenseNova 大模型 " 體系以全面更新的姿态對企業級用戶開放。同時許多人沒有注意到，商湯還聯合上海人工智能實驗室一起發布了書生多模态大模型。未來，商湯是否能率先找到決勝多模态之路的鑰匙，很值得期待。