“高校在大模型领網域是不太可能跟企业竞争的”

今天小编分享的科学经验：“高校在大模型领網域是不太可能跟企业竞争的”，欢迎阅读。

高校在大模型（领網域）是不太可能跟企业竞争。

多模态大模型用起来，成本依然会很高，肯定离不开云。

企业做视觉大模型，要么是双目立体视觉，要么是多传感器融合。

未来，大模型将与元宇宙深度结合。

在最新 CCF C ³ 活动来到了联想北京总部，诸多产业专家和高校学者从多个视角，谈了谈边缘智能计算的技术发展、演进趋势、以及未来大模型结合的应用前景。

在不改变原意的基础之上，量子位做了如下整理：

英伟达平台是提供给当前时代的毕加索和達文西的。

边缘计算是联想整个车联网技术的一个核心，剩下两个核心分别是 5G 通信和 AI 计算技术。

高校在很多前沿技术领網域，比如大模型，是不太可能跟大企业去竞争的。

某种程度上，边缘 AI 小样本学习技术是目前缺陷检测的现阶段终结者。

2027 年边缘智能市场将达到 400 亿美元规模。

具身智能被视为下一波人工智能浪潮，它指的是能够理解、推理并与物理世界互动的智能系统。

边缘智能计算的机遇和挑战

来自中科院计算所研究员、博导蒋树强、北京师范大学人工智能学院黄华教授、北京邮电大学人工智能学院教授何召锋、英伟达亚太区开发者发展总监李铭，以及联想首席研究员、联想研究院人工智能实验室计算机视觉总监师忠超，联想云网融合事业部车联网业务负责人李虓，高级工程师、联想研究院人工智能实验室联想大腦研发总监虞文明，分别从产、学、研三个维度，谈谈当前边缘智能计算的机遇与挑战，以及大模型在边缘侧有怎样的应用前景。

联想车联网技术有三个核心

李跃华（本次活动主持人、联想集团校企合作高级经理）：首先问李铭老师，英伟达作为 AI 领網域不容忽视的玩家，开发者如何利用英伟达产品，快速进行边缘视觉方案的开发和迭代？

李铭：大家关注比较少的，英伟达真正强的地方是在于軟體的部分，让开发者们可以快速上手，开发出来最合适、最高效的产品出来。

比如视觉部分，三四年前就在社区以及开发者当中推广各种 SDK。对于特定场景有训练数据，利用 TAO 训练出相应算法，再用 DeepStream 快速部署不同的边缘设备。

李跃华：国内开发者社区发展情况是怎样的？英伟达赋能开发者上面有哪些经验可以分享？

李铭：这几年开发者社区成长非常快，目前为止国内开发者基本在 85 万左右，今明年可能会更多。

第一点，产学研融合，平台最重要就是将开发者、使用者以及研究者等各方智慧汇聚，大家一起协作起来最终生成新的产品。

第二点就是平台开放和开源。老黄有句话叫做，英伟达平台是提供给当前时代的毕加索和達文西的。

第三点英伟达有个策略叫做treat as Developer。除了商务目的外，有个非常重要的评价指标就是想法是否有创新性。如果有，相应技术力量会投入很多。

李跃华：第二个问题是车联网业务负责人李虓，智慧交通上，边缘视觉应用有哪些产品和服务交付给大家？

李虓：联想车联网解决方案，是基于联想新 IT 技术架构，也就是一个标准的端边云网智架构。边缘计算是车联网领網域中非常重要、甚至不可或缺的组成部分，与此同时也提出了很多很高的要求。得益于联想研究院 AI lab，我们做了一些相关产品。

就说路侧的计算单元，利用 AI 视觉检测能力，在芯片和基础设施上做了视频融合感知算法。它可以利用各种传感器的数据融合计算，输出结构化数据，甚至都无需上云。

现在可以做到识别时延低于 50 毫秒，而有些传感器本身识别就要达到 100 毫秒的时延。再结合 5G、V2X 传输技术，将整个时延控制在很低的水平，能够在交通这种多要素、动态的复杂条件下，为自动驾驶或辅助驾驶提供相应的决策依据。

我们全系列产品不仅提供路口级的，还有街区级的，能够为单车智能提供上帝视角的安全性保障。

再一个数字孪生，在车联网领網域有两级，第一级是区網域级，第二级是路口级，也叫做全息路口，对将来整个交通治理有促进作用。

边缘计算是联想整个车联网技术的一个核心，剩下两个核心分别是 5G 通信和 AI 计算技术。

高校在大模型领網域是不太可能跟企业竞争的

李跃华：感谢以上带来的产业界思考，再来了解下学界的情况。首先问下黄华老师，第一个是在边缘视觉智能相关方向，近期有哪些科研动态？

黄华：这几年端相关研究做的都是 low-level 的事情，也就是成像增强。如果采集的数据质量不够好，那对后面理解会造成很大影响。

比如像非智能红外成像，工艺不成熟非均匀噪声很大，通常方法要通过加挡板来做非均匀校正。现在我们做的是无挡板校正，通过算法来去除。还有暗光下彩色成像的问题，用 RGPW 比较强的光照去恢复彩色信息，去年春季在华为产品上落地。

此外，如何在方向性多变的情况下去快速检测目标也是我们研究项目之一。

李跃华：蒋老师研究的领網域同样与边缘视觉智能相关，您看到有哪些趋势和动态？同时知道蒋老师一个研究方案叫食品计算，大家都比较好奇跟边缘视觉有哪些可以融合互動的地方？

蒋树强：我们食品计算是将边缘侧采集到的食品数据，包括影像，然后识别它的类别、成分、重量及营养。当然，还有一些更深层次、看不到信息，比如营养素、分子物质等。

现在问题是检测它的模型实际上是比较大的，需要在云上训。

这过程中一个体会是实现边缘计算，需要做很多适配性工作，这块其实是很重要很难的。第二个方面，模型是不断变化的，随着数据采集传到云端，去更新模型的能力。

这也意味着模型可能很大，但更新的参数实际上很少，从而实现好的效果。

视觉只是食品计算其中一方面，还要用更多技术，同时也需要像各行各业，特别是食品学、营养学、医学同行来合作。

李跃华：何老师是产学研的资深人士，之前在企业做技术高管，后来去大学当教授。那么在产学研融合 / 合作方面，推动技术创新和产业发展方面有哪些建议给到大家。

何召峰：首先是长期稳定的产学研合作，不管是企业还是高校都非常有帮助。但达成这种合作关系很难，在产业端我有这几个方面的建议。

第一个是双方认清自己的定位，现在企业实际上是创新的主体，高校也要认清这个地位变化。很多前沿技术领網域，比如大模型，是不太可能跟大企业去竞争的。因此双方应结合各自优势、围绕产业痛点去针对性合作。

第二、企业也可以在人才培养上做些探索。

第三、有组织、有体系的产业合作。

李跃华：边缘计算领網域相关工作的动态，以及有哪些未来趋势？

何召峰：我一直在做的生物识别，尤其是虹膜识别，有二十几年的深耕。现在比较关注边缘设备的隐私安全以及关注借助大模型技术在边缘侧场景得到应用。

边缘 AI 小样本学习技术是目前阶段缺陷检测的终结者

李跃华：那我们看了产业界、学术界，再来了解研发团队的情况，联想边缘视觉解决方案有哪些特点？以及有哪些领先性？

师忠超：联想的新 IT 技术架构是 " 端边云网智 "，在我们实际工作中会涉及到很多边缘和端侧的应用场景，如 PC、平板、手机以及车联网等。

首先，我们应以适配设备性能为导向去进行算法优化。一方面，我们可以实现算法模型的硬體自适应优化，让算法通过感知终端硬體的方式来提高性能。另一方面，我们也可以设计更为高效的网络架构，以实现不同场景下更高的性能表现。

其次，我们需要探究半监督学习、自监督学习以及知识驱动这些方向。尽管现今很多工作都是基于数据驱动的，但实际场景中却缺乏大量的带标注数据。此时，我们需要在知识驱动的策略下，通过少量带标注的数据即可实现较好的泛化性能。

最后，我们应在端边云网智的战略框架下确保所有算法模型都能够在不同的应用场景和运营环境下实现同样的性能表现，从而推动这一领網域的发展，实现让模型通达天下的愿景。

李跃华：端边云融合其实是大势所趋，最后一个问题，仅在边缘端是如何实现模型的快速部署？

虞文明：联想的边缘 AI，是指在边缘侧既有训练又推理的能力。它与传统的云侧 AI 有很大不同，云侧 AI 目前通常是在云侧训练，在边侧推理。很多情况下，在工厂里的边缘 AI 应用，是没有很丰富的、多样化的产品样本的，这些都不利于进行模型的训练，比如缺陷检测这一场景，工厂里面会有很多正常的好样本，但是异常样本的积累通常会花几个月甚至半年的时间。

目前联想实现了小样本技术的颠覆性算法突破，将边缘 AI 小样本技术产品化了，并且落地在自己的工厂和外部客户。

首先我们有 1 个非常好的预训练模型，可以在边缘侧基于好品来快速建模，这样就能快速进行模型的构建冷启动。在实际进行模型推理的时候，当出现被检测出来的异常样本，再通过人为干预，进行深层主义的提取，将异常样本特征与原模型进行融合，从而实现本地更新。这样，就不需要回到云端去，训练与推理自学习都可以发生在边缘侧。

某种程度上讲，Edge AI 的小样本学习技术是目前缺陷检测的终结者。它变革了工业界对缺陷检测传统的思维方法，能够解决一系列边缘长尾算法问题。

多模态大模型用起来肯定离不开云

李跃华：大模型将会如何影响边缘视觉智能未来的发展道路？

李铭：落地的第一个点，就是少样本或者零样本。国内大模型视觉方面跑的非常快，上个月联系到家电厂商，现在就已在边缘侧部署应用。

第二个点，大模型在多 sensor fusion 未来有非常广阔的空间，过去在多传感器融合面对着置信度、信任哪个数据源、知识冲突等挑战。现在大模型解决不仅是感知问题，还能还有将各种测温、测距等数据融合在一起。像晶圆场景上已经在做前期的一个测试。

另外从个人角度看，未来大模型肯定与元宇宙关系密不可分，一旦能将现场各种数据结构化并理解它，其实很容易构建起真实空间与虚拟空间之间的桥梁。

短期是 ViT 这类模型准确率提升，第二步是多传感器的融合，未来则是与元宇宙深度的结合。

黄华：今后企业做视觉大模型，要么是双目立体视觉，要么多传感器融合。

影像实际上是将三维立体空间投影到二维，丢了一维信息去理解它是非常困难的。

如果单纯用二维信息去训练，数据非常大也很难取得很好效果（当然不排除专用领網域），运用到通用任务训练，是有很大弊端的。所以只有多传感器融合，或最起码双目立体视觉才可能将这些事情做好。

当然用起来之后，多模态大模型成本依然会很高。它很难像 NLP 那样，处理一维信息，解空间比较小；而视觉领網域是解空间太大，因此要用起来肯定离不开云，除非能在端上提供非常厉害的计算设备。

蒋树强：大模型现在都很关注，但我觉得视觉跟语言差别很大的。从过去到现在人类所产生、所记录下来的语言，其实是个相对确定的事情，数据量也相对有限。