今天小編分享的科技經驗:DeepSeek撕開一道裂縫,歡迎閱讀。
出品 | 虎嗅科技組
作者 | 丸都山
編輯 | 苗正卿
頭圖 | 電影《敦刻爾克》
毫不意外地,DeepSeek 的火燒到了硬體行業。
自 2 月 5 日華為宣布 " 小藝智能體 " 接入 DeepSeek-R1 算起,在一周多的時間裡,包括星紀魅族、榮耀、OPPO、努比亞、vivo 在内的 6 家手機廠商宣布接入 DeepSeek。
僅從功能實現來看,各手機品牌基于 DeepSeek-R1 模型所提供的能力大差不大,多集中于 " 聯網搜索 "、" 文案生成 "、"AI 問答 " 等。本質上,這種 API 調用的接入方式基本相當于增加一個在線插件。
某種意義上,這也算是智能手機行業中長久以來形成的默契,即信奉短板理論,絕不讓 " 人有我無 " 的情況發生。
而除了從眾效應外,也有多位從業者向虎嗅表示了他們對 DeepSeek 的看好,其中也包括智能手機與前者的深度綁定——将 DeepSeek 完成本地部署。
這背後其實反映了兩個問題:為什麼智能手機需要一個在端側部署的模型?還有就是端側模型何時才能 " 好用 "?
掌上的 DeepSeek,會是個好選擇嗎?
實際上,雖然各手機廠商只是接入 DeepSeek 作為 " 擴展應用 ",但其中也不乏有公司開始了本地化部署的驗證工作,只是受限于模型尺寸與手機性能之間的矛盾,現階段 DeepSeek 的小尺寸模型在端側的表現并不理想。
這裡需要解釋下,在滿血版 DeepSeek-R1 模型中,其參數達到 670B,如果在本地運行,至少需要占用 960Gb 的内存空間,任何一種移動設備都無法滿足這樣的硬體配置需要。
目前 DeepSeek 蒸餾版本(1.5B、7B)尚可符合手機端的使用條件,比如 1.5B 參數版本在本地運行時,大概占用 1Gb 的内存,基本不會對系統流暢度和續航造成太大影響。
而在實際測試中,1.5B 版本的 DeepSeek 無論是精度還是幻覺率都較滿血版大幅下滑。
星紀魅族副總裁王煉向筆者表示,在實際測試中,DeepSeek 的小尺寸模型能力還在 " 不斷進化中 ",不過在一些垂直領網域,比如數學領網域表現得較好。
造成這一問題的,除了模型參數導致的性能降低外,還有一個重要原因可能是端側本就不是 DeepSeek 這類開源模型公司的核心賽道。
《業務驅動的推薦系統:方法與實踐》作者、Shopee 新加坡資深算法專家傅聰向筆者表示,開源大模型公司在模型發布後,後續都會更新一系列從大到小的蒸餾版本,算是行業慣例,一方面他們想打造生态,另一方面也是調動社會層面的協作,而對于學術機構來說,他們能動用的算力去跑一遍 1.5B 左右參數的模型,算是能承受的極限了。
" 比如手中有十幾塊、幾十塊 A100 芯片,然後把 1.5B 的模型從 0 到 1 復現一下,把 V3 這個架構實踐一遍,可能也需要訓練三天左右的時間,這對于一般研究機構來說,算是成本較高的了 ",傅聰解釋道。
除去這重考量外,現在還難說 DeepSeek 未來會對小尺寸模型做哪些針對性的算法優化。
那麼為什麼手機廠商還會去探尋端側部署的方法呢?一個重要的原因是,從用戶隐私保護的角度來說,端側模型是最優解。
前不久,雲安全公司 Wiz 曾發布一項研究結果,表明 DeepSeek 數據庫存在安全隐患,允許對數據庫操作進行完全控制,包括訪問系統日志、用戶聊天提示,甚至用戶的 API 身份驗證令牌。
針對數據安全,有一種解決方案是将數據做向量化加密。
王煉向筆者提到,在 Flyme AIOS 系統中,有些功能應用無法通過本地算力解決,必須将數據上傳到星魅雲端,而涉及這部分數據時,首先會将用戶的隐私數據篩查出去,然後再将數據做向量化加密上傳,這些數據在雲端也無法被解密。
而另外一種更加徹底的解決方案就是将大模型做本地化部署,從根源上減少對雲端算力的依賴。
除此之外,DeepSeek 對模糊意圖的理解能力,也是手機廠商所看重的。
"DeepSeek 在深度思考上的能力相較其他模型更具優勢,在與星魅的 Flyme 大模型結合後,能夠充分理解用戶的意圖,幫助用戶去做一些更加精準的決策和執行,而不是讓用戶自己去分析,他應該在什麼時候、什麼地點、什麼步驟上使用什麼能力去解決問題 ",王煉解釋道。
當然,就目前來看,除了意圖理解和某些特定領網域外,在端側部署小尺寸的 Deepseek 模型,性能比較有限,那端側模型何時才能落地呢?
" 精品小模型 ",呼之欲出?
正如上文所提到的,手機、PC 等移動終端在硬體配置上,基本卡死了大模型端側部署的可能。
而在參數量較小的模型中,7-13B 這個級别裡,部分模型如智譜 GLM4-9B 在精度和幻覺上均已展現出不錯的成效。
同時也有迹象表明,小模型可能會即将誕生一個 "Aha Moment"。
傅聰提到," 業内有一些動手能力特别強的工程師,他們基于 DeepSeek 的技術報告做了些嘗試,去復現小模型,比如在 Llama7B、Llama38B 上做強化學習引導,在很多輪後也得到了接近于可以多步思考的小推理模型,同時幻覺被大大減少。"
另外,僅就 DeepSeek 來說,如果将其用于端側部署,也是個不錯的技術選型。
"DeepSeek-V3 的參數是 6700 億,但推理的時候只會激活 370 億,大概相當于總參數量的 5%,如果是 80 億參數的模型,相當于只需要激活 4 億參數,這個框架本身就決定了它的推理成本會控制在一個很理想的範圍内 ",按照傅聰的推算,可能未來一年左右,行業裡就會出現多個 7B 左右大小的 " 精品小模型 "。
不過,這并不代表手機、PC 等硬體廠商會第一時間跟進,他們還必須要考慮沉沒成本。
打個比方,如果現在有廠商決定要在自家系統中做 DeepSeek 的本地化部署,甚至是基于 DeepSeek 去訓練端側模型,這其實就相當于在賭未來 3-5 年的技術發展方向。
"DeepSeek 通過 Multi-Head latent Attention(MLA)和 DeepSeek MOE 架構實現了底層算力高效利用以及更低成本、更出色的模型效果。但這已經不是一個典型的 Transformer 架構,為了适配這個架構,又為了适配硬體的底層設計,他們做了非常重的開發 ",傅聰認為,對于手機廠商來說同樣如此,如果押注 DeepSeek,後者也需要圍繞 DeepSeek 去做大量的生态配套。
這其實也很好地回答了,為什麼過去各手機廠商高調宣布的自研大模型,普遍充滿了 " 技術儲備 " 的色彩,因為在行業技術路線不明确之前,以智能手機行業龐大的體量來看,誰都不敢盲目地下注。