“高校在大模型領網域是不太可能跟企業競争的”

今天小編分享的科學經驗：“高校在大模型領網域是不太可能跟企業競争的”，歡迎閱讀。

高校在大模型（領網域）是不太可能跟企業競争。

多模态大模型用起來，成本依然會很高，肯定離不開雲。

企業做視覺大模型，要麼是雙目立體視覺，要麼是多傳感器融合。

未來，大模型将與元宇宙深度結合。

在最新 CCF C ³ 活動來到了聯想北京總部，諸多產業專家和高校學者從多個視角，談了談邊緣智能計算的技術發展、演進趨勢、以及未來大模型結合的應用前景。

在不改變原意的基礎之上，量子位做了如下整理：

英偉達平台是提供給當前時代的畢加索和達文西的。

邊緣計算是聯想整個車聯網技術的一個核心，剩下兩個核心分别是 5G 通信和 AI 計算技術。

高校在很多前沿技術領網域，比如大模型，是不太可能跟大企業去競争的。

某種程度上，邊緣 AI 小樣本學習技術是目前缺陷檢測的現階段終結者。

2027 年邊緣智能市場将達到 400 億美元規模。

具身智能被視為下一波人工智能浪潮，它指的是能夠理解、推理并與物理世界互動的智能系統。

邊緣智能計算的機遇和挑戰

來自中科院計算所研究員、博導蔣樹強、北京師範大學人工智能學院黃華教授、北京郵電大學人工智能學院教授何召鋒、英偉達亞太區開發者發展總監李銘，以及聯想首席研究員、聯想研究院人工智能實驗室計算機視覺總監師忠超，聯想雲網融合事業部車聯網業務負責人李虓，高級工程師、聯想研究院人工智能實驗室聯想大腦研發總監虞文明，分别從產、學、研三個維度，談談當前邊緣智能計算的機遇與挑戰，以及大模型在邊緣側有怎樣的應用前景。

聯想車聯網技術有三個核心

李躍華（本次活動主持人、聯想集團校企合作高級經理）：首先問李銘老師，英偉達作為 AI 領網域不容忽視的玩家，開發者如何利用英偉達產品，快速進行邊緣視覺方案的開發和迭代？

李銘：大家關注比較少的，英偉達真正強的地方是在于軟體的部分，讓開發者們可以快速上手，開發出來最合适、最高效的產品出來。

比如視覺部分，三四年前就在社區以及開發者當中推廣各種 SDK。對于特定場景有訓練數據，利用 TAO 訓練出相應算法，再用 DeepStream 快速部署不同的邊緣設備。

李躍華：國内開發者社區發展情況是怎樣的？英偉達賦能開發者上面有哪些經驗可以分享？

李銘：這幾年開發者社區成長非常快，目前為止國内開發者基本在 85 萬左右，今明年可能會更多。

第一點，產學研融合，平台最重要就是将開發者、使用者以及研究者等各方智慧匯聚，大家一起協作起來最終生成新的產品。

第二點就是平台開放和開源。老黃有句話叫做，英偉達平台是提供給當前時代的畢加索和達文西的。

第三點英偉達有個策略叫做treat as Developer。除了商務目的外，有個非常重要的評價指标就是想法是否有創新性。如果有，相應技術力量會投入很多。

李躍華：第二個問題是車聯網業務負責人李虓，智慧交通上，邊緣視覺應用有哪些產品和服務交付給大家？

李虓：聯想車聯網解決方案，是基于聯想新 IT 技術架構，也就是一個标準的端邊雲網智架構。邊緣計算是車聯網領網域中非常重要、甚至不可或缺的組成部分，與此同時也提出了很多很高的要求。得益于聯想研究院 AI lab，我們做了一些相關產品。

就說路側的計算單元，利用 AI 視覺檢測能力，在芯片和基礎設施上做了視頻融合感知算法。它可以利用各種傳感器的數據融合計算，輸出結構化數據，甚至都無需上雲。

現在可以做到識别時延低于 50 毫秒，而有些傳感器本身識别就要達到 100 毫秒的時延。再結合 5G、V2X 傳輸技術，将整個時延控制在很低的水平，能夠在交通這種多要素、動态的復雜條件下，為自動駕駛或輔助駕駛提供相應的決策依據。

我們全系列產品不僅提供路口級的，還有街區級的，能夠為單車智能提供上帝視角的安全性保障。

再一個數字孿生，在車聯網領網域有兩級，第一級是區網域級，第二級是路口級，也叫做全息路口，對将來整個交通治理有促進作用。

邊緣計算是聯想整個車聯網技術的一個核心，剩下兩個核心分别是 5G 通信和 AI 計算技術。

高校在大模型領網域是不太可能跟企業競争的

李躍華：感謝以上帶來的產業界思考，再來了解下學界的情況。首先問下黃華老師，第一個是在邊緣視覺智能相關方向，近期有哪些科研動态？

黃華：這幾年端相關研究做的都是 low-level 的事情，也就是成像增強。如果采集的數據質量不夠好，那對後面理解會造成很大影響。

比如像非智能紅外成像，工藝不成熟非均勻噪聲很大，通常方法要通過加擋板來做非均勻校正。現在我們做的是無擋板校正，通過算法來去除。還有暗光下彩色成像的問題，用 RGPW 比較強的光照去恢復彩色信息，去年春季在華為產品上落地。

此外，如何在方向性多變的情況下去快速檢測目标也是我們研究項目之一。

李躍華：蔣老師研究的領網域同樣與邊緣視覺智能相關，您看到有哪些趨勢和動态？同時知道蔣老師一個研究方案叫食品計算，大家都比較好奇跟邊緣視覺有哪些可以融合互動的地方？

蔣樹強：我們食品計算是将邊緣側采集到的食品數據，包括影像，然後識别它的類别、成分、重量及營養。當然，還有一些更深層次、看不到信息，比如營養素、分子物質等。

現在問題是檢測它的模型實際上是比較大的，需要在雲上訓。

這過程中一個體會是實現邊緣計算，需要做很多适配性工作，這塊其實是很重要很難的。第二個方面，模型是不斷變化的，随着數據采集傳到雲端，去更新模型的能力。

這也意味着模型可能很大，但更新的參數實際上很少，從而實現好的效果。

視覺只是食品計算其中一方面，還要用更多技術，同時也需要像各行各業，特别是食品學、營養學、醫學同行來合作。

李躍華：何老師是產學研的資深人士，之前在企業做技術高管，後來去大學當教授。那麼在產學研融合 / 合作方面，推動技術創新和產業發展方面有哪些建議給到大家。

何召峰：首先是長期穩定的產學研合作，不管是企業還是高校都非常有幫助。但達成這種合作關系很難，在產業端我有這幾個方面的建議。

第一個是雙方認清自己的定位，現在企業實際上是創新的主體，高校也要認清這個地位變化。很多前沿技術領網域，比如大模型，是不太可能跟大企業去競争的。因此雙方應結合各自優勢、圍繞產業痛點去針對性合作。

第二、企業也可以在人才培養上做些探索。

第三、有組織、有體系的產業合作。

李躍華：邊緣計算領網域相關工作的動态，以及有哪些未來趨勢？

何召峰：我一直在做的生物識别，尤其是虹膜識别，有二十幾年的深耕。現在比較關注邊緣設備的隐私安全以及關注借助大模型技術在邊緣側場景得到應用。

邊緣 AI 小樣本學習技術是目前階段缺陷檢測的終結者

李躍華：那我們看了產業界、學術界，再來了解研發團隊的情況，聯想邊緣視覺解決方案有哪些特點？以及有哪些領先性？

師忠超：聯想的新 IT 技術架構是 " 端邊雲網智 "，在我們實際工作中會涉及到很多邊緣和端側的應用場景，如 PC、平板、手機以及車聯網等。

首先，我們應以适配設備性能為導向去進行算法優化。一方面，我們可以實現算法模型的硬體自适應優化，讓算法通過感知終端硬體的方式來提高性能。另一方面，我們也可以設計更為高效的網絡架構，以實現不同場景下更高的性能表現。

其次，我們需要探究半監督學習、自監督學習以及知識驅動這些方向。盡管現今很多工作都是基于數據驅動的，但實際場景中卻缺乏大量的帶标注數據。此時，我們需要在知識驅動的策略下，通過少量帶标注的數據即可實現較好的泛化性能。

最後，我們應在端邊雲網智的戰略框架下确保所有算法模型都能夠在不同的應用場景和運營環境下實現同樣的性能表現，從而推動這一領網域的發展，實現讓模型通達天下的願景。

李躍華：端邊雲融合其實是大勢所趨，最後一個問題，僅在邊緣端是如何實現模型的快速部署？

虞文明：聯想的邊緣 AI，是指在邊緣側既有訓練又推理的能力。它與傳統的雲側 AI 有很大不同，雲側 AI 目前通常是在雲側訓練，在邊側推理。很多情況下，在工廠裡的邊緣 AI 應用，是沒有很豐富的、多樣化的產品樣本的，這些都不利于進行模型的訓練，比如缺陷檢測這一場景，工廠裡面會有很多正常的好樣本，但是異常樣本的積累通常會花幾個月甚至半年的時間。

目前聯想實現了小樣本技術的颠覆性算法突破，将邊緣 AI 小樣本技術產品化了，并且落地在自己的工廠和外部客戶。

首先我們有 1 個非常好的預訓練模型，可以在邊緣側基于好品來快速建模，這樣就能快速進行模型的構建冷啟動。在實際進行模型推理的時候，當出現被檢測出來的異常樣本，再通過人為幹預，進行深層主義的提取，将異常樣本特征與原模型進行融合，從而實現本地更新。這樣，就不需要回到雲端去，訓練與推理自學習都可以發生在邊緣側。

某種程度上講，Edge AI 的小樣本學習技術是目前缺陷檢測的終結者。它變革了工業界對缺陷檢測傳統的思維方法，能夠解決一系列邊緣長尾算法問題。

多模态大模型用起來肯定離不開雲

李躍華：大模型将會如何影響邊緣視覺智能未來的發展道路？

李銘：落地的第一個點，就是少樣本或者零樣本。國内大模型視覺方面跑的非常快，上個月聯系到家電廠商，現在就已在邊緣側部署應用。

第二個點，大模型在多 sensor fusion 未來有非常廣闊的空間，過去在多傳感器融合面對着置信度、信任哪個數據源、知識衝突等挑戰。現在大模型解決不僅是感知問題，還能還有将各種測溫、測距等數據融合在一起。像晶圓場景上已經在做前期的一個測試。

另外從個人角度看，未來大模型肯定與元宇宙關系密不可分，一旦能将現場各種數據結構化并理解它，其實很容易構建起真實空間與虛拟空間之間的橋梁。

短期是 ViT 這類模型準确率提升，第二步是多傳感器的融合，未來則是與元宇宙深度的結合。

黃華：今後企業做視覺大模型，要麼是雙目立體視覺，要麼多傳感器融合。

影像實際上是将三維立體空間投影到二維，丢了一維信息去理解它是非常困難的。

如果單純用二維信息去訓練，數據非常大也很難取得很好效果（當然不排除專用領網域），運用到通用任務訓練，是有很大弊端的。所以只有多傳感器融合，或最起碼雙目立體視覺才可能将這些事情做好。

當然用起來之後，多模态大模型成本依然會很高。它很難像 NLP 那樣，處理一維信息，解空間比較小；而視覺領網域是解空間太大，因此要用起來肯定離不開雲，除非能在端上提供非常厲害的計算設備。

蔣樹強：大模型現在都很關注，但我覺得視覺跟語言差别很大的。從過去到現在人類所產生、所記錄下來的語言，其實是個相對确定的事情，數據量也相對有限。

GPT 大概算了下，差不多 2000 萬本紅樓夢文字量。但如果一旦到視覺，這個空間數據量就大了去。根本不是一個量級。

這可能是将來真正要解決的問題，它的數據量可能會非常大，而且它與文字的關聯難度也會非常高。

什麼事情都有可能發生，當前思維慣性產生的結果不一定就能解決大模型的難題。

何召峰：我自己關注兩方面的内容。

一塊是怎麼基于大模型來加強我們感知認知的能力，包括通信傳輸數據，那有了大模型，是否有可能只傳感興趣的、所需要的。

另一塊就是多模态大模型，大模型如何将感覺認知的能力最終落實到各種決策任務。

2027 邊緣智能市場将達 400 億美元規模

除此之外，聯想集團副總裁、聯想研究院人工智能實驗室負責人範建平博士在活動上分享了《面向視覺的邊緣智能》主題報告。

他首先表示，非常看好邊緣智能的發展前景，2027 年全球邊緣智能市場将達到 400 多億美元的規模。

此外他還介紹了邊緣智能的一些關鍵技術，以及邊緣視覺智能的一些應用場景和案例，包括廠區的智能安全監測、智能制造中的缺陷檢測、智能零售中的多場景應用等。

中國科學院計算技術研究所研究員、博導蔣樹強也作了題為《具身智能中的視覺導航技術研究》的分享。

具身智能被視為下一波人工智能浪潮，它指的是能夠理解、推理并與物理世界互動的智能系統，比如智能機器人。

蔣老師介紹了具身智能的研究背景、研究現狀，具身智能和邊緣計算技術的結合，在視覺導航方面的研究進展和應用，以及具身智能技術未來的發展趨勢。

本次活動上，還有CCF- 聯想藍海科研基金的發布。

聯想集團技術戰略與創新高級總監王帥發布了 CCF- 聯想藍海科研基金 2023 的 10 個課題，課題圍繞" 人工智能 + 計算 "，符合條件的中國高校青年學者可以申請課題，并獲得聯想提供的研發資金支持。

該基金旨在将產業實際技術挑戰與高校科學研究緊密結合，搭建產學研合作平台。在基金第一期中，與來自北京大學、中山大學、廈門大學、中科院大學、東南大學等高校的 10 位高校學者實現了科研合作。