今天小编分享的互联网经验:DeepSeek撕开一道裂缝,欢迎阅读。
出品 | 虎嗅科技组
作者 | 丸都山
编辑 | 苗正卿
头图 | 电影《敦刻尔克》
毫不意外地,DeepSeek 的火烧到了硬體行业。
自 2 月 5 日华为宣布 " 小艺智能体 " 接入 DeepSeek-R1 算起,在一周多的时间里,包括星纪魅族、荣耀、OPPO、努比亚、vivo 在内的 6 家手机厂商宣布接入 DeepSeek。
仅从功能实现来看,各手机品牌基于 DeepSeek-R1 模型所提供的能力大差不大,多集中于 " 联网搜索 "、" 文案生成 "、"AI 问答 " 等。本质上,这种 API 调用的接入方式基本相当于增加一个在线插件。
某种意义上,这也算是智能手机行业中长久以来形成的默契,即信奉短板理论,绝不让 " 人有我无 " 的情况发生。
而除了从众效应外,也有多位从业者向虎嗅表示了他们对 DeepSeek 的看好,其中也包括智能手机与前者的深度绑定——将 DeepSeek 完成本地部署。
这背后其实反映了两个问题:为什么智能手机需要一个在端侧部署的模型?还有就是端侧模型何时才能 " 好用 "?
掌上的 DeepSeek,会是个好选择吗?
实际上,虽然各手机厂商只是接入 DeepSeek 作为 " 扩展应用 ",但其中也不乏有公司开始了本地化部署的验证工作,只是受限于模型尺寸与手机性能之间的矛盾,现阶段 DeepSeek 的小尺寸模型在端侧的表现并不理想。
这里需要解释下,在满血版 DeepSeek-R1 模型中,其参数达到 670B,如果在本地运行,至少需要占用 960Gb 的内存空间,任何一种移动设备都无法满足这样的硬體配置需要。
目前 DeepSeek 蒸馏版本(1.5B、7B)尚可符合手机端的使用条件,比如 1.5B 参数版本在本地运行时,大概占用 1Gb 的内存,基本不会对系统流畅度和续航造成太大影响。
而在实际测试中,1.5B 版本的 DeepSeek 无论是精度还是幻觉率都较满血版大幅下滑。
星纪魅族副总裁王炼向笔者表示,在实际测试中,DeepSeek 的小尺寸模型能力还在 " 不断进化中 ",不过在一些垂直领網域,比如数学领網域表现得较好。
造成这一问题的,除了模型参数导致的性能降低外,还有一个重要原因可能是端侧本就不是 DeepSeek 这类开源模型公司的核心赛道。
《业务驱动的推荐系统:方法与实践》作者、Shopee 新加坡资深算法专家傅聪向笔者表示,开源大模型公司在模型发布后,后续都会更新一系列从大到小的蒸馏版本,算是行业惯例,一方面他们想打造生态,另一方面也是调动社会层面的协作,而对于学术机构来说,他们能动用的算力去跑一遍 1.5B 左右参数的模型,算是能承受的极限了。
" 比如手中有十几块、几十块 A100 芯片,然后把 1.5B 的模型从 0 到 1 复现一下,把 V3 这个架构实践一遍,可能也需要训练三天左右的时间,这对于一般研究机构来说,算是成本较高的了 ",傅聪解释道。
除去这重考量外,现在还难说 DeepSeek 未来会对小尺寸模型做哪些针对性的算法优化。
那么为什么手机厂商还会去探寻端侧部署的方法呢?一个重要的原因是,从用户隐私保护的角度来说,端侧模型是最优解。
前不久,云安全公司 Wiz 曾发布一项研究结果,表明 DeepSeek 数据库存在安全隐患,允许对数据库操作进行完全控制,包括访问系统日志、用户聊天提示,甚至用户的 API 身份验证令牌。
针对数据安全,有一种解决方案是将数据做向量化加密。
王炼向笔者提到,在 Flyme AIOS 系统中,有些功能应用无法通过本地算力解决,必须将数据上传到星魅云端,而涉及这部分数据时,首先会将用户的隐私数据筛查出去,然后再将数据做向量化加密上传,这些数据在云端也无法被解密。
而另外一种更加彻底的解决方案就是将大模型做本地化部署,从根源上减少对云端算力的依赖。
除此之外,DeepSeek 对模糊意图的理解能力,也是手机厂商所看重的。
"DeepSeek 在深度思考上的能力相较其他模型更具优势,在与星魅的 Flyme 大模型结合后,能够充分理解用户的意图,帮助用户去做一些更加精准的决策和执行,而不是让用户自己去分析,他应该在什么时候、什么地点、什么步骤上使用什么能力去解决问题 ",王炼解释道。
当然,就目前来看,除了意图理解和某些特定领網域外,在端侧部署小尺寸的 Deepseek 模型,性能比较有限,那端侧模型何时才能落地呢?
" 精品小模型 ",呼之欲出?
正如上文所提到的,手机、PC 等移动终端在硬體配置上,基本卡死了大模型端侧部署的可能。
而在参数量较小的模型中,7-13B 这个级别里,部分模型如智谱 GLM4-9B 在精度和幻觉上均已展现出不错的成效。
同时也有迹象表明,小模型可能会即将诞生一个 "Aha Moment"。
傅聪提到," 业内有一些动手能力特别强的工程师,他们基于 DeepSeek 的技术报告做了些尝试,去复现小模型,比如在 Llama7B、Llama38B 上做强化学习引导,在很多轮后也得到了接近于可以多步思考的小推理模型,同时幻觉被大大减少。"
另外,仅就 DeepSeek 来说,如果将其用于端侧部署,也是个不错的技术选型。
"DeepSeek-V3 的参数是 6700 亿,但推理的时候只会激活 370 亿,大概相当于总参数量的 5%,如果是 80 亿参数的模型,相当于只需要激活 4 亿参数,这个框架本身就决定了它的推理成本会控制在一个很理想的范围内 ",按照傅聪的推算,可能未来一年左右,行业里就会出现多个 7B 左右大小的 " 精品小模型 "。
不过,这并不代表手机、PC 等硬體厂商会第一时间跟进,他们还必须要考虑沉没成本。
打个比方,如果现在有厂商决定要在自家系统中做 DeepSeek 的本地化部署,甚至是基于 DeepSeek 去训练端侧模型,这其实就相当于在赌未来 3-5 年的技术发展方向。
"DeepSeek 通过 Multi-Head latent Attention(MLA)和 DeepSeek MOE 架构实现了底层算力高效利用以及更低成本、更出色的模型效果。但这已经不是一个典型的 Transformer 架构,为了适配这个架构,又为了适配硬體的底层设计,他们做了非常重的开发 ",傅聪认为,对于手机厂商来说同样如此,如果押注 DeepSeek,后者也需要围绕 DeepSeek 去做大量的生态配套。
这其实也很好地回答了,为什么过去各手机厂商高调宣布的自研大模型,普遍充满了 " 技术储备 " 的色彩,因为在行业技术路线不明确之前,以智能手机行业庞大的体量来看,谁都不敢盲目地下注。