大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

視覺模型底座超越OpenAI,格靈深瞳開啟多模态落地的Scaling Law

2024-09-09 简体 HK SG TW

今天小編分享的科學經驗:視覺模型底座超越OpenAI,格靈深瞳開啟多模态落地的Scaling Law,歡迎閱讀。

大模型時代,有個大家普遍焦慮的問題:如何落地 ? 往哪落地 ?

聚光燈下最耀眼的 OpenAI,最近也先被曝出資金告急,後又尋求新一輪 10 億美元新融資。

但在中國,有這麼一家公司:

它的多模态大模型不僅在多個權威數據集上的表現超過了 OpenAI,更是用一個個落地案例告訴大家,大模型并不僅僅包括大語言模型,視覺大模型和多模态大模型在產業界有更大的想象空間。 

這家公司就是格靈深瞳,它曾因 "A 股 AI 視覺第一股 " 的标籤為人熟知,如今以新姿态再次刷新外界認知:大模型落地先行者。

銀行安防領網域,AI 算法規模化應用,落地 10000+ 銀行網點

城市管理領網域,交通治理業務在 10 餘個省市開展試點及落地應用

商業零售領網域,智慧案場解決方案落地全國 20 餘省市近 1000 個項目

體育教育領網域,相關產品方案已在全國多個校園試點應用,為 100000+ 名在校師生提供日常教學支持與考試服務

……

取得這樣的成績背後,離不開格靈深瞳在大模型技術層面取得的進展:

自研視覺大模型 Unicom v2,在多業務數據集上平均優于 OpenAI 的 CLIP、Meta 的 DINOv2 和蘋果的 DFN

基于 Unicom 的深瞳靈感 -7B 多模态大模型在業界同等規模的 VLM 模型中居領先地位,優于業界普遍使用的 OpenAI CLIP 和谷歌 SigLIP

其中,Unicom v2 相關論文還入選 AI 頂會 ECCV 2024。

雖然現在不加限定的使用 " 大模型 " 一詞,默認就是指 " 大型語言模型 ",Large Language Model。

但從格靈深瞳的故事中可以看到,視覺大模型、多模态大模型在原本視覺 AI 的存量市場依然大有可為,而且壁壘依然深厚。

多模态給傳統視覺 AI 帶來什麼改變?

早在 2022 年,格靈深瞳就開始自研視覺大模型,但當時想要推進落地,還是遇到了瓶頸:

今天已為人熟知的大模型、Transformer、Scaling Law 等等,當時還未成為行業共識。彼時的主流是不斷優化卷積神經網絡,把模型做小、最好能直接在邊緣設備運行。

總而言之,當時很難說服客戶接受大模型這一前沿但成本高昂的技術。

然而 ChatGPT 橫空出世,徹底改變了這一切。

一方面,它以直觀的人機對話方式向公眾展示了算力與效果的正相關,人們終于意識到 " 大量投入算力,才能獲得理想中的效果 "。

另一方面,硬體也開始主動适配 Transformer 算法,比如英偉達在 Hopper 架構 GPU 中首次引入專用 Transformer 引擎。

從某種意義上說,ChatGPT 是替所有 AI 公司做好了教育市場的工作。

視覺 AI 在這一階段經歷了與語言模型類似的,從 " 模塊化 " 到 " 一體化 " 的範式轉變。

傳統的檢測、分割、分類等任務需要針對性設計復雜的特征工程和網絡結構,而視覺大模型則以統一的 Transformer 骨幹直接學習影像到特征再到應用輸出的端到端映射。

格靈深瞳自研視覺大模型 Unicom 系列就是這一轉變的成果,通過做大數據的規模、做大計算的規模來做強通用能力,讓模型以統一的方式對世界進行 " 理解 " 和 " 泛化 "。

如果說視覺大模型是讓 AI" 看到了世界 ",再結合語言模型則是讓 AI 更新為 " 看懂了世界 ",大大拓寬了應用邊界。

以格靈深瞳多年深耕的銀行安防行業為例,如何讓 AI 判斷攝像頭畫面中是否有人在打架?

這涉及動作識别、對視角遮擋的推斷等等多項難點,在 AI 1.0 時代需要復雜的規則和阈值設計,再加上難以采集的數據樣本,工程量巨大且效果有限。

而加入語言模型後,只需把視頻幀連續輸入并描述場景,模型就能從語義層面判斷這是否屬于打鬥行為。

" 面對各種長尾、復雜場景,多模态的優勢就體現出來了。"格靈深瞳工程研發副總裁周瑞認為," 它讓以前難以想象的應用變成了可能。"

同樣,在工業質檢領網域,以前要針對每種缺陷去采集标注數據,代價高昂且泛化性差,更何況一些稀有缺陷數據總量根本就不夠。

而通用視覺大模型具備少樣本學習、跨場景泛化的能力,再結合上語言模型的多模态生成範式,現在 AI 只要智能識别到缺陷,同時就能給出文字描述,供現場工作人員參考。

除了在單項任務中,多模态大模型的推理和生成能力,還可以在整個系統中承擔任務分配的 " 路由 " 作用。

例如格靈深瞳覆蓋某銀行 10000+ 網點的解決方案,形成總 - 分 - 支三層架構:總行利用大模型訓練通用模型,分發至各地分行。各省分行結合自身業務特點,定期微調優化模型。支行則直接應用本地分行下發的模型調用服務。

在視頻結構化方面,邊緣端負責提取人、車、物等目标的實時信息并上傳。若無法判别的復雜場景,則發送至中心端請求二次識别。雲端利用多模态大模型,從語義層面對場景内容做更全面的理解。

此外,基于多模态大模型強大的數據匯聚與語義理解能力,該行還打通了原本割裂的各類監控數據。目前正着手建設一套覆蓋全行的 "AI 中台 ",可靈活調度跨網點、跨系統的數據和算力,快速響應總分支的各種臨時需求。

這套架構能随時利用零散的多模态數據對大模型做增量學習提升,讓整個銀行集團的 AI 平台像一個不斷進化的 " 中央大腦 "。

弱監督學習開啟視覺的 Scaling Law

格靈深瞳視覺大模型的進化之路,開始于做自研的視覺基座模型 Unicom。

最初的 v1 版本參考人臉識别的特征學習方式,把網絡直接改成了 ViT 結構,數據也從人臉擴展到 4 億通用影像,精度就超過了當時最好的對比學習模型。

但影像數據不像文本,天然就有高密度的語義信息,無需标注就能通過 " 預測下一個 token" 任務進行無監督學習。

如何擴大視覺大模型數據規模,無需标注也能利用好更多影像數據呢?

格靈深瞳團隊逐漸探索出一種新穎的弱監督方式:先用一個特征聚類模型,把相似圖片自動歸類到一起,視為同一類别。然後基于聚類結果,為每張影像分配一個 " 軟标籤 ",作為訓練目标。

這種做法為無标籤數據注入了豐富的語義信息。

具體來說,格靈深瞳開發了多标籤聚類辨别 (MLCD)方法,在聚類步驟中為每個影像選擇多個最近的聚類中心作為輔助類标籤,以考慮影像中不同粒度的視覺信号。

與此配合,他們還設計了一種消除多标籤分類歧義的損失函數。

不同于常規的多标籤損失函數通過縮小類内相似度和類間相似度的相對差距來優化,本文引入了另外兩個優化目标:最小化類間相似度和最大化類内相似度,從而可以優雅地分離正類損失和負類損失,減輕決策邊界上的歧義。

團隊在更大規模的模型和數據集上進行了實驗驗證,進一步證明了所提出方法的有效性和可擴展性。

Unicom v2 正是基于這一思路,将數據規模、參數規模再次擴大,精度再創新高,成功刷新多項記錄。

有了 Unicom 強大的通用視覺理解能力,再結合上語言模型,就組成了深瞳靈感 -7B 多模态大模型。

該模型不僅在傳統的單圖問答上表現優異,在多圖推理、圖文增量學習等前沿任務上也展現出了巨大潛力。

正如格靈深瞳在 22 年就開始探索 ViT 架構的視覺大模型落地,現在研究團隊也在思考什麼是能超越 Transformer 的下一代架構。

最近,他們嘗試用RWKV(Receptance Weighted Key Value)這一基于 RNN 的序列建模方法替代主流的 ViT 架構,訓練出了視覺語言模型 RWKV-CLIP。

RWKV 能在線性時間内處理任意長度序列,大幅降低推理時的計算復雜度,有望釋放多模态 AI 能力在更多邊緣、終端設備上。

值得一提的是,格靈深瞳還将 RWKV-CLIP 代碼和模型權重開源到 GitHub,供業界一起探讨,共同進步。

視覺 AI 公司做多模态,是一種不同的打法

放眼當下,不乏大模型公司試水多模态應用。

但多是簡單的技術 Demo、帶上傳圖片的聊天機器人、個人 AI 助手等輕量級形态切入,真正深入產業的尚不多見。

歸根到底,把 AI 算法與特定行業場景深度融合的經驗,是難以在短期内獲得的。

讓多模态大模型技術在更多地方發揮價值,還需要有視覺 AI 基因、掌握行業場景的公司。

拿着大模型到處找落地場景,和在已深耕多年的場景用大模型做更新改造,是兩種完全不同的打法。

縱觀歷史,互聯網作為現代社會的一種基礎設施,幾十年來積累的大量文本數據,最終成就了大語言模型公司。

接下來,視覺 AI 時代建設的大量攝像頭、積累的影像視頻數據也會成就一批多模态大模型公司。

至于為什麼是語言模型先一步完成蛻變,格靈深瞳認為是影像數據中的分布更不均勻,比如很容易獲得一家上市公司的财報文檔,但很難通過開放數據來獲取一家公司大量的影像。

到了專業細分場景,如醫療影像、工業缺陷,可獲取的訓練數據體量更是遠不及互聯網語料。

但換個角度從應用價值來看,視覺數據直接反映現實世界,與城市治理、工業生產、商業運營等領網域的痛點訴求高度契合。

從影像數據中提取出價值更難,也更值得做。

格靈深瞳正是這樣一家将技術創新與行業理解相結合的先行者。十多年來,公司始終堅持在智慧金融、城市治理等領網域精耕細作,打磨出一整套面向行業的數字化解決方案。

這些方案不僅考慮了算法本身的創新,更融入了大量行業知識和實踐經驗,形成獨特的競争壁壘。

這種積澱,讓格靈深瞳在多模态大模型應用落地中先人一步:既能洞悉行業痛點,設計好落地路徑,又能調動資源快速迭代。大到頂層的商業模式設計,小到一線的模型适配、部署,公司上下形成了一套成熟的方法論。

大模型帶來的是一個構建行業 AI 應用的全新技術範式。多模态感知、跨網域推理、小樣本學習等能力的提升,從根本上拓展了 AI 的想象空間。

但歸根結底,技術只是實現願景的工具,行業才是應用的土壤。惟有深耕行業,AI 才能開花結果。

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們