DeepSeek撕開一道裂縫

今天小編分享的科技經驗：DeepSeek撕開一道裂縫，歡迎閱讀。

出品 | 虎嗅科技組

作者 | 丸都山

編輯 | 苗正卿

頭圖 | 電影《敦刻爾克》

毫不意外地，DeepSeek 的火燒到了硬體行業。

自 2 月 5 日華為宣布 " 小藝智能體 " 接入 DeepSeek-R1 算起，在一周多的時間裡，包括星紀魅族、榮耀、OPPO、努比亞、vivo 在内的 6 家手機廠商宣布接入 DeepSeek。

僅從功能實現來看，各手機品牌基于 DeepSeek-R1 模型所提供的能力大差不大，多集中于 " 聯網搜索 "、" 文案生成 "、"AI 問答 " 等。本質上，這種 API 調用的接入方式基本相當于增加一個在線插件。

某種意義上，這也算是智能手機行業中長久以來形成的默契，即信奉短板理論，絕不讓 " 人有我無 " 的情況發生。

而除了從眾效應外，也有多位從業者向虎嗅表示了他們對 DeepSeek 的看好，其中也包括智能手機與前者的深度綁定——将 DeepSeek 完成本地部署。

這背後其實反映了兩個問題：為什麼智能手機需要一個在端側部署的模型？還有就是端側模型何時才能 " 好用 "？

掌上的 DeepSeek，會是個好選擇嗎？

實際上，雖然各手機廠商只是接入 DeepSeek 作為 " 擴展應用 "，但其中也不乏有公司開始了本地化部署的驗證工作，只是受限于模型尺寸與手機性能之間的矛盾，現階段 DeepSeek 的小尺寸模型在端側的表現并不理想。

這裡需要解釋下，在滿血版 DeepSeek-R1 模型中，其參數達到 670B，如果在本地運行，至少需要占用 960Gb 的内存空間，任何一種移動設備都無法滿足這樣的硬體配置需要。

目前 DeepSeek 蒸餾版本（1.5B、7B）尚可符合手機端的使用條件，比如 1.5B 參數版本在本地運行時，大概占用 1Gb 的内存，基本不會對系統流暢度和續航造成太大影響。

而在實際測試中，1.5B 版本的 DeepSeek 無論是精度還是幻覺率都較滿血版大幅下滑。

星紀魅族副總裁王煉向筆者表示，在實際測試中，DeepSeek 的小尺寸模型能力還在 " 不斷進化中 "，不過在一些垂直領網域，比如數學領網域表現得較好。

造成這一問題的，除了模型參數導致的性能降低外，還有一個重要原因可能是端側本就不是 DeepSeek 這類開源模型公司的核心賽道。

《業務驅動的推薦系統：方法與實踐》作者、Shopee 新加坡資深算法專家傅聰向筆者表示，開源大模型公司在模型發布後，後續都會更新一系列從大到小的蒸餾版本，算是行業慣例，一方面他們想打造生态，另一方面也是調動社會層面的協作，而對于學術機構來說，他們能動用的算力去跑一遍 1.5B 左右參數的模型，算是能承受的極限了。

" 比如手中有十幾塊、幾十塊 A100 芯片，然後把 1.5B 的模型從 0 到 1 復現一下，把 V3 這個架構實踐一遍，可能也需要訓練三天左右的時間，這對于一般研究機構來說，算是成本較高的了 "，傅聰解釋道。

除去這重考量外，現在還難說 DeepSeek 未來會對小尺寸模型做哪些針對性的算法優化。

那麼為什麼手機廠商還會去探尋端側部署的方法呢？一個重要的原因是，從用戶隐私保護的角度來說，端側模型是最優解。

前不久，雲安全公司 Wiz 曾發布一項研究結果，表明 DeepSeek 數據庫存在安全隐患，允許對數據庫操作進行完全控制，包括訪問系統日志、用戶聊天提示，甚至用戶的 API 身份驗證令牌。

針對數據安全，有一種解決方案是将數據做向量化加密。

王煉向筆者提到，在 Flyme AIOS 系統中，有些功能應用無法通過本地算力解決，必須将數據上傳到星魅雲端，而涉及這部分數據時，首先會将用戶的隐私數據篩查出去，然後再将數據做向量化加密上傳，這些數據在雲端也無法被解密。

而另外一種更加徹底的解決方案就是将大模型做本地化部署，從根源上減少對雲端算力的依賴。

除此之外，DeepSeek 對模糊意圖的理解能力，也是手機廠商所看重的。

"DeepSeek 在深度思考上的能力相較其他模型更具優勢，在與星魅的 Flyme 大模型結合後，能夠充分理解用戶的意圖，幫助用戶去做一些更加精準的決策和執行，而不是讓用戶自己去分析，他應該在什麼時候、什麼地點、什麼步驟上使用什麼能力去解決問題 "，王煉解釋道。

當然，就目前來看，除了意圖理解和某些特定領網域外，在端側部署小尺寸的 Deepseek 模型，性能比較有限，那端側模型何時才能落地呢？

" 精品小模型 "，呼之欲出？

正如上文所提到的，手機、PC 等移動終端在硬體配置上，基本卡死了大模型端側部署的可能。

而在參數量較小的模型中，7-13B 這個級别裡，部分模型如智譜 GLM4-9B 在精度和幻覺上均已展現出不錯的成效。

同時也有迹象表明，小模型可能會即将誕生一個 "Aha Moment"。

傅聰提到，" 業内有一些動手能力特别強的工程師，他們基于 DeepSeek 的技術報告做了些嘗試，去復現小模型，比如在 Llama7B、Llama38B 上做強化學習引導，在很多輪後也得到了接近于可以多步思考的小推理模型，同時幻覺被大大減少。"

另外，僅就 DeepSeek 來說，如果将其用于端側部署，也是個不錯的技術選型。

"DeepSeek-V3 的參數是 6700 億，但推理的時候只會激活 370 億，大概相當于總參數量的 5%，如果是 80 億參數的模型，相當于只需要激活 4 億參數，這個框架本身就決定了它的推理成本會控制在一個很理想的範圍内 "，按照傅聰的推算，可能未來一年左右，行業裡就會出現多個 7B 左右大小的 " 精品小模型 "。

不過，這并不代表手機、PC 等硬體廠商會第一時間跟進，他們還必須要考慮沉沒成本。

打個比方，如果現在有廠商決定要在自家系統中做 DeepSeek 的本地化部署，甚至是基于 DeepSeek 去訓練端側模型，這其實就相當于在賭未來 3-5 年的技術發展方向。

"DeepSeek 通過 Multi-Head latent Attention（MLA）和 DeepSeek MOE 架構實現了底層算力高效利用以及更低成本、更出色的模型效果。但這已經不是一個典型的 Transformer 架構，為了适配這個架構，又為了适配硬體的底層設計，他們做了非常重的開發 "，傅聰認為，對于手機廠商來說同樣如此，如果押注 DeepSeek，後者也需要圍繞 DeepSeek 去做大量的生态配套。

這其實也很好地回答了，為什麼過去各手機廠商高調宣布的自研大模型，普遍充滿了 " 技術儲備 " 的色彩，因為在行業技術路線不明确之前，以智能手機行業龐大的體量來看，誰都不敢盲目地下注。