大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

GPT-4現場被端側小模型“暴打”,商湯日日新5.0:全面對标GPT-4 Turbo

2024-04-26 简体 HK SG TW

今天小編分享的科學經驗:GPT-4現場被端側小模型“暴打”,商湯日日新5.0:全面對标GPT-4 Turbo,歡迎閱讀。

夠刺激,GPT-4 竟然當眾被 " 揍 " 了,甚至連還手的機會都沒有:

是的,就是在一場《街頭霸王》遊戲現場 PK 中,發生了這樣的名場面。

而且二者還是不在一個 " 重量級 " 的那種:

綠人:由 GPT-4 操縱

紅人:由一個端側小模型操縱

那麼這位又小又彪悍的選手到底什麼來頭?

不賣關子,它正是由商湯科技最新發布的日日新端側大模型——SenseChat Lite(商量輕量版)。

單是在《街頭霸王》裡的表現,這個小模型就頗有一種 " 天下武功,唯快不破 " 的氣勢:

GPT-4 還在想着怎麼決策,SenseChat Lite 的拳頭就已經打上去了。

不僅如此,商湯 CEO徐立還在現場加大難度,直接在手機上斷網開測!

例如離線模式下生成員工請假一周的申請,效果是這樣的:

△現場原速

(當然,徐立開玩笑表示 " 假太長了,不批噢 ~")

也可以對長段文字做快速總結:

△現場原速

而之所能夠做到如此,是因為 SenseChat Lite 在同等尺度性能上已經達到了 SOTA 水平。

更是用 " 以小博大 " 的姿勢在多項測試中擊敗了 Llama2-7B,甚至是 13B。

在速度方面,SenseChat Lite 則是采用了端雲 " 聯動 " 的 MoE 框架,在部分場景中端側推理占 70%,會讓推理成本變得更低。

具體而言,對比人眼 20 字 / 秒的閱讀速度來說,SenseChat Lite 在中等性能手機上,可以達到 18.3 字 / 秒推理速度。

若是在高端旗艦手機,那麼推理速度可以直接飙到 78.3 字 / 秒!

但除了文本生成之外,徐立同樣在現場還展示了商湯端側模型的多模态能力。

例如同樣是擴圖,商湯的端側大模型在慢半拍啟動的情況下,擴了 3 種不同圖片的速度比友商擴 1 張的速度還快:

演示的同學甚至直接現場拍照,把照片縮小了很多以後再來自由擴圖:

嗯,不得不說,商湯是敢在現場動真格的。

然而,縱觀整場活動,端側大模型也還僅是此次發布會的一隅。

在 " 大基座 " 方面,商湯更是把自家的日日新大模型來了個大版本的更新——SenseNova 5.0。并且直接将其定位到了一個新高度:

全面對标 GPT-4 Turbo!

那麼日日新大模型 5.0 版本實力到底如何,我們這就來實測一波 ~

有請," 弱智吧 "!

自打大模型火爆以來," 弱智吧 " 就一直成了檢測大模型邏輯能力的标準之一,江湖戲稱為" 弱智吧 Benchmark"。

(" 弱智吧 " 源自百度貼吧,是一個充滿荒謬、離奇、不合常理發言的中文社區。)

而且就在前不久," 弱智吧 " 還登上正經 AI 論文,成了最好的中文訓練數據,引發了一波不小的熱議。

那麼當文本對話的商量大模型 5.0 遇到了 " 弱智吧 ",二者又會擦出怎樣的花火?

邏輯推理:" 弱智吧 "

請聽第一題:

我爸媽結婚為什麼沒有叫我?

商量的回答不同于其它 AI,它會比較拟人的用 " 我 " 來做回答,而且從答案結果來看并沒有過多冗餘的内容,而是精準地做了回答和解釋," 他們結婚時您還未出生 "。

請聽第二題:

網吧能上網,為什麼弱智吧不能上弱智?

同樣的,商量直接精準點出 " 這是個玩笑性質的問題 ",以及道出了 " ‘弱智吧’并非一個實際的地方 "。

不難看出,對于 " 弱智吧 " 這種魔幻、不按套路出牌的邏輯,商量 5.0 是已經能夠 hold 住了。

自然語言:高考《紅樓夢》

除了邏輯推理能力之外,在自然語言生成方面,我們可以直接用2022 年高考作文題目,來對比看下 GPT-4 和商量大模型 5.0。

從結果上來看,GPT-4 的文章還是一眼 "AI 模版 ";而商量 5.0 這邊,則是頗有詩意,不僅句子工整對仗,還能引經據典。

嗯,AI 的思路是被打開、發散了。

數學能力:化繁為簡

同樣是讓 GPT-4 和商量 5.0 同台競技,我們這次來測試一下它們的數學能力:

媽媽給圓圓衝了一杯咖啡,圓圓喝了半杯後,将它加滿水,然後她又喝了半杯後,再加滿水,最後全部喝完。問圓圓喝的咖啡多,還是水多?咖啡和水各喝了幾杯?

這道題對于人類來說,其實是一個比較簡單的問題,但是 GPT-4 卻對此做出了看似一本正經的缜密推導,結果還是錯誤的。

究其原因,是大模型背後的思維鏈在邏輯上的構建并不完整,若是遇到小眾的問題就極容易出錯;反觀商量 5.0 這邊,思路和結果就是正确的了。

再如下面這道" 老鷹抓小雞 "的問題,GPT-4 或許不理解這種遊戲的規則,因為所算出來的答案依舊是錯誤:

不僅從實際體驗的效果中可以感知一二,更為直接的評測榜單數據,也反應出了商量 5.0 的能力——

常規客觀評測已經達到或超越 GPT-4 Turbo。

那麼日日新 5.0 又是如何做到的呢?一言蔽之,左手數據,右手算力。

首先,為了打破數據層面上的瓶頸,商湯采用了超過 10T 的 tokens,使其具備了高質量數據的完備性,讓大模型對客觀知識和世界有了初級的認知。

此外,商湯還合成構造了高達數千億 tokens 的思維鏈數據,這也是此次在數據層面上發力的關鍵點,能夠激活大模型強推理的能力。

其次,是在算力層上,商湯是将算法設計和算力設施進行了聯合的優化:算力設施的拓撲極限用來定義下一階段的算法,而算法上的新進展又要重新知道算力設施的建設。

這便是商湯 AI 大裝置對算法和算力聯合迭代的核心能力所在了。

整體而言,日日新 5.0 的更新亮點可以總結為:

采用 MoE 架構

基于超過 10TB tokens 訓練,擁有大量合成數據

推理上下文視窗達到 200K

知識、推理、數學和代碼等能力全面對标 GPT-4 Turbo

除此之外,在多模态領網域,日日新 5.0 在多項核心指标中也取得了較為領先的成績:

老規矩,我們繼續來看多模态的生成效果。

更會看圖了

例如 " 投喂 " 給商量 5.0 一張超級長的圖片(646*130000),只需讓它識别,便可以得到所有内容的概述:

再如随意丢給商量 5.0 一張有意思的貓咪圖片,它就能根據派對帽、蛋糕和 " 生日快樂 " 等細節内容推斷貓在慶生。

更實用一些的,例如上傳一張復雜截圖,商量 5.0 就能精準提取并總結出關鍵的信息,而這一點 GPT-4 在識别過程中卻出現了失誤:

秒畫 5.0:和三大頂流 PK

在文生圖方面,日日新的秒畫 5.0直接和 Midjourney、Stable Diffuison 和 DALL · E 3 進行了同台競技。

例如在風格上,秒畫生成的圖片可能會更加接近 prompt 中提到的 " 國家地理 ":

人物形象上,可以展示更加復雜的皮膚紋理:

甚至是文字也可以精準無誤地嵌入到影像當中:

還有個拟人大模型

除此之外,商湯在此次發布中還推出了一個比較特殊的大模型——拟人大模型。

從體驗來看,它已經可以模仿影視角色、現實名人、原神世界等各種破次元的人物,并且與你展開高情商對話。

從功能上來看,商量拟人大模型支持角色創建與定制、知識庫構建、長對話記憶等,甚至是可以三人以上群聊的那種哦 ~

也正是基于如此多模态能力,商湯大模型家族的另一大成員——小浣熊也迎來了能力上的更新。

辦公、編程變得更 easy

商湯的小浣熊目前細分為辦公小浣熊和編程小浣熊兩大類,顧名思義,分别是作用于辦公場景和編程場景。

有了辦公小浣熊,現在處理表格、文檔甚至代碼檔案,都成了" 一丢 + 一問 "的事情了。

以采購場景為例,我們可以先上傳不同來源的供應商名單信息,然後跟辦公小浣熊說:

只需稍等片刻,我們就可以得到處理完後的結果了。

而且在左側欄中,辦公小浣熊還給出了分析過程的 Python 代碼,主打一個 " 有迹可循 "。

我們還可以同時上傳庫存信息和采購需求等多個檔案:

然後繼續提要求,辦公小浣熊依舊是能夠快速完成任務。

并且即使是數據形式不規範,它也能自行發現并解決:

當然,數據計算也是不在話下,依舊是提要求的事情。

除此之外,辦公小浣熊也可以基于數據檔案做可視化的工作,直接展示下有難度的熱力圖:

總結來看,辦公小浣熊可以對多個、不同類型(如 Excel、csv、json 等)做處理,在中文理解、數理計算和數據可視化等維度有非常強的能力。并且它通過代碼解釋器的形式,增強了大模型生成内容的準确性與可控性。

另外,發布會上辦公小浣熊還當場展示了結合復雜數據庫進行分析的能力。

上周,中國首位 F1 車手周冠宇完成了他在 F1 中國大獎賽的比賽。商湯在發布會現場直接給辦公小浣熊 " 投喂 " 了一份數據量龐大的數據庫檔案,讓小浣熊當場分析周冠宇和 F1 賽事的相關情況。

如統計周冠宇的參賽信息、F1 總共有多少車手、有哪些車手獲得過總冠軍并按照獲獎次數從高到低排列,這些計算涉及量更大、邏輯更復雜的數據表格和圈數、領獎數等更多維度的細節信息,最終也都給出了完全正确的答案。

在編程場景中,代碼小浣熊也是可以讓程式員們的效率直接 Pro Max 了。

例如只需在 VS Code 中安裝擴展的插件:

然後編程的各個環節就變成了輸入一句自然語言的事情了。

例如把需求文檔丢給代碼小浣熊,然後就說句:

幫我寫一個公有雲上微信掃碼支付的詳細 PRD 文檔。PRD 格式和内容請遵循 " 產品需求文檔 PRD 模板 " 的要求,生成的内容清晰、完整、詳細。

然後代碼小浣熊就 " 唰唰唰 " 地開始做需求分析的工作了:

代碼小浣熊也可以為你做架構設計:

寫代碼也可以通過自然語言提需求,或者通過滑鼠一鍵注釋、測試生成代碼,代碼翻譯、重構或修正等等:

最後的軟體測試環節也可以交給代碼小浣熊來執行哦 ~

總而言之,有了代碼小浣熊,它就能幫你處理平日裡一些重復性、繁瑣性高的編程任務。

而且商湯此次還不只是發布這麼個動作,更是将代碼小浣熊 " 打包 " 推出了輕量版一體機。

一台一體機就能支持 100 人團隊開發,且成本僅為每人每天 4.5 元。

以上便是商湯此次發布的主要内容了。

那麼最後,我們還需要總結性地聊一聊一個話題。

商湯的大模型路數

縱觀整場發布會,給人最為直觀的感受首先就是夠全面。

不論是端側模型,亦或者 " 大底座 " 日日新 5.0,是屬于雲、邊、端全棧的發布或更新;能力上更是涵蓋到了語言、知識、推理、數學、代碼,以及多模态等 AIGC 近乎所有主流的 " 标籤 "。

其次就是夠抗打。

以日日新 5.0 的綜合實力為例,目前放眼整個國内大模型玩家,能夠喊出全面對标 GPT-4 的可以說是為數不多;并且商湯是敢在現場直接拿多項能力做實測,也是敢第一時間開放體驗,對自身實力的信心可見一斑。

最後就是夠速度。

商湯的速度不只限于像端側大模型的運行效果之快,更宏觀地來看,是自身在迭代優化進程上的速度。若是我們把時間線拉長,這種 speed 就會格外得明顯:

日日新 1.0 → 2.0:3 個月

日日新 2.0 → 4.0:6 個月

日日新 4.0 → 5.0:3 個月

如此平均下來,近乎是一個季度便有一次大版本的更新,其整體能力也會随之大幅提高。

那麼接下來的一個問題便是,商湯為什麼可以做到如此?

首先從大方向來看,便是商湯一直強調的" 大模型 + 大裝置 "的打法。

大模型是指日日新大模型體系,可以提供自然語言處理、圖片生成、自動化數據标注、自定義模型訓練等多種大模型及能力。

大裝置則是指商湯打造的高效率、低成本、規模化的新一代 AI 基礎設施,以 AI 大模型開發、生成、應用為核心;總算力規模高達 12000 petaFLOPS ,已有超 4.5 萬塊 GPU。

二者的異曲同工之妙,便是早已布局,它們并非是 AIGC 大熱潮之下的產物,而是可以追溯到數年前、具有前瞻性的兩項工作。

其次更深入到大模型層面,商湯基于自身在實際的測試和實踐過程中,對行業所共識的基本法則尺度定律(Scaling Law)有着新的理解和解讀。

尺度定律通常是指随着數據量、參數量和訓練時長的增加,大模型所表現出來的性能會更好,是一種大力出奇迹的感覺。

這個定律還包含兩條隐藏的假設:

可預測性:可以跨越 5-7 個數量級尺度依然保持對性能的準确預測

保序性:在小尺度上驗證了性能優勢,在更大尺度上依然保持

因此,尺度定律是可以指導在有限的研發資源中,找到最優的模型架構和數據配方,讓大模型能夠高效地去學習。

而也正是基于商湯如此的觀察和實踐,誕生了 " 小且能打 " 的端側模型。

除此之外,商湯對于大模型的能力還有獨到的三層架構(KRE)的理解。

徐立對此做了深入地解讀。

首先是在知識,是指世界知識的全面灌注。

目前大模型等新質生產力工具近乎都是基于此來解決問題,也就是根據前人已經解決過的問題的方案,來回答你的問題。

這可以認為是大模型能力的基本功,但更為高階的知識,應當是基于這樣能力下推理得到的新知識,這也就是這個架構的第二層——推理,即理性思維的質變提升。

這一層的能力是可以決定大模型是否夠聰明、是否可以舉一反三的關鍵和核心。

再在此之上,便是執行,是指世界内容的互動變革,也就是如何跟真實世界產生互動(就目前而言,具身智能在這一層是潛力股般的存在)。

三者雖相互獨立,但層與層之間也是緊密關聯,徐立打了一個較為形象的比喻:

知識到推理是像大腦,推理到執行則像小腦。

在商湯看來,這三層的架構是大模型應當具備的能力,而這也正是啟發商湯構建高質量數據的關鍵;不僅如此,也是基于 KRE 這套邏輯,才有了此次發布中的眾多產品。

那麼最後一個問題是,基于 KRE、基于 " 大模型 + 大裝置 " 這樣的路線,最新的日日新在產業中 " 上崗 " 到了什麼程度?

正所謂 " 實踐是檢驗真理的唯一标準 ",來自客戶的使用反饋或許才是最真實的答案。

而在此,商湯也交出了一份較為高分的作業——在現場,華為、WPS、小米、閱文、海通證券,從辦公到文娛,從金融到終端,紛紛分享了使用商湯日日新大模型體系後,給自身業務帶來的降本增效。

總而言之,有技術、有算力、有方法論、有場景,商湯日日新在 AIGC 時代接下來的發展,是值得期待了。

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們