大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

港大馬毅團隊等開源新作:用編碼率正則化重構視覺自監督學習範式,“少即是多”

2025-03-09 简体 HK SG TW

今天小編分享的科學經驗:港大馬毅團隊等開源新作:用編碼率正則化重構視覺自監督學習範式,“少即是多”,歡迎閱讀。

最新開源的視覺預訓練方法,馬毅團隊、微軟研究院、UC 伯克利等聯合出品!

SimDINO和SimDINOv2,通過編碼率正則化簡化 DINO 和 DINOv2 模型訓練流程得到的兩個最新模型。

在目前視覺預訓練領網域,DINO 和 DINOv2 是最強視覺模型梯隊選手,也是目前最常用的方法。在多模态大模型火熱的當下,DINOv2 也經常被用作 VLM 中的視覺編碼器提供視覺特征。

此外,圖靈獎得主、Meta 首席 AI 科學家楊立昆團隊近期關于世界模型的工作,也基于 DINOv2 而來。

(當然了,DINO 模型本身就是四年前 Meta AI 團隊提出的)

但 DINO 系列目前仍然需要基于非常復雜的工程方法來實現。

而SimDINO 通過去除 DINO 中復雜的後處理步驟等,解決了 DINO 系列的訓練難題。

更令人驚喜的是,簡化後的模型不僅訓練更容易,性能反而更強。

或許這就是 " 簡單即是美 " 的設計理念在深度學習中的重要價值?(手動狗頭)

馬毅表示:

我們不是在修補 DINO,而是在重新發現視覺表示學習的本質規律。

核心方法:化繁為簡

自監督學習(Self-Supervised Learning,SSL)在處理大規模未标記影像數據方面取得了顯著進展。

在 CV 領網域,DINO 系列模型堪稱自監督學習的标杆選手。

這個無需人工标注就能從海量影像中自主學習特征的模型,不僅在下遊任務中屢創佳績,更成為多模态大模型視覺編碼器的标配。

但是,DINO 系列模型的強能力,伴随着「需要被精心呵護」:

需要精心設計的溫度調度策略(溫度參數 τ 要精确到小數點後三位)

依賴復雜的中心化 - 銳化操作(堪比精密儀器的校準流程)

必須搭配高維原型投影層(特征維度動辄破萬)

這些 " 保命裝置 " 雖然能防止模型陷入特征崩潰,卻讓訓練過程變成了超參數調優的噩夢。并且當研究人員嘗試改進模型架構或适配新領網域時,往往牽一發而動全身,稍有不慎就會讓整個系統停擺。

為了解決這些問題,SimDINO 和 SimDINOv2 模型閃亮登場~

通過引入編碼率正則化,簡化訓練流程,提高模型的魯棒性和性能。

這倆模型的核心思想,是通過編碼率正則化防止表示崩潰,從而去除原始 DINO 和 DINOv2 訓練流程中許多經驗性設計組件。

具體方法包括:

移除經驗性組件:删除權重歸一化的線性層、平衡操作(如中心化、銳化)以及各種超參數(如溫度調度、中心化動量)等。

引入編碼率正則化:在損失函數中添加一個簡單的編碼率正則化項,以防止表示崩潰。

SimDINO 和 SimDINOv2 模型的主要創新點除了上述 2 種方法外,還有一點,即簡化的訓練流程。

通過上述 2 種具體方法的改進,SimDINO 和 SimDINOv2 的訓練流程更加簡潔,減少了對超參數的依賴,提高了訓練的穩定性和效率。

引入編碼率正則化,訓練更穩定、性能更強

回顧自監督對比學習 " 同類相聚,異類相斥 " 的原始出發點,研究團隊發現,DINO 中許多復雜設計(如輸出層高維投影、教師網絡輸出中心化 - 銳化操作、溫度調節等)都是在間接地利用負樣本信息來防止模型習得的表示 " 崩潰 "。

而 SimDINO 系列研究團隊提出這一需求,可以轉而使用馬毅提出的數據編碼率失真估計方法(可參考 MCR2 等系列工作),采用顯示度量模型表征的質量作為正則化項。

基于這一發現,研究人員提出了一個解決方案:

引入編碼率(coding rate)正則化,通過在損失函數中添加一個顯式的編碼率正則項來避免表示崩潰。

這個簡單的改動就能替代原本復雜的設計,将訓練流程向簡約靠近。

而簡化的模型訓練流程可以帶來幾個關鍵優勢,即「更清晰的優化目标、更少的組件依賴、更容易的理論分析、更好的可擴展性」。

具體而言,SimDINO 保留了 DINO 模型的 EMA 自蒸餾方案和多視圖數據增強方法,但在對比學習方案上進行了修改。

抛棄輸出層高維原型投影 + 交叉熵多分類,直接使用歐幾裡得距離 / 餘弦相似度比較學生網絡(student network)和教師網絡(teacher network)生成的特征。

加入編碼率正則化項促使模型學習到更具區分性的表示,移除教師網絡輸出中心化 - 銳化操作、溫度調節等避免表示崩潰的技巧。

通過引入編碼率正則化,SimDINO 能夠有效防止特征崩潰,确保學習到的信息具有較大的信息熵,從而提高模型的泛化能力。

SimDINOv2 則進一步将 DINOv2 引入的 iBOT 機制進行替換。

它直接使用餘弦相似度監督掩碼區網域 token 與教師網絡表示間的對齊,而 Sinkhorn-Knopp centering、KoLeo 正則化等復雜設計也被簡化移除。

相比于原版 DINO, SimDINO 的訓練流程更為簡潔,去除了許多繁瑣的組件和超參數,降低了模型訓練的復雜度,使得研究人員和工程師更容易理解和實現這些模型。

從實驗角度看,這一系列操作可以讓模型訓練更穩定,性能也更強。

各種評估均優于 DINO 系列

為了驗證 SimDINO 和 SimDINOv2 的有效性,研究團隊在多個數據集和任務上進行了廣泛的實驗評估,包括影像分類、目标檢測、語義分割以及視頻對象分割。

實驗結果表明,SimDINO 系列在計算效率、訓練穩定性和下遊任務性能上均優于 DINO 系列。

ImageNet-1K 影像分類

SimDINO 和 SimDINOv2 在 ImageNet-1K 上進行了評估,包括 k-NN 分類和線性評估(linear probing)。

還與 DINO、DINOv2 進行了對比。

COCO val2017 無監督目标檢測與實例分割

在目标檢測任務中,研究團隊采用 MaskCut 作為基礎檢測框架,并在 COCO val2017 數據集上進行了評估。

具體來說,主要對比了 AP50、AP75 和 AP 三個指标:

ADE20K 語義分割和 DAVIS-2017 視頻對象分割

在語義分割任務上,研究團隊采用 linear head 并在 ADE20K 數據集上進行了評估。

這個任務上主要對比了 mIoU(平均交并比)和 mAcc(平均像素精度)。

特别要提到的是,SimDINO 還在 DAVIS-2017 上進行了評估,包括 ( J&F ) m、Jm 和 Fm 三個标準指标。

結果顯示,它在定性的特征可視化分析上也展現出了 DINO 系列工作中表現突出的語義表達能力湧現現象。

與此同時,SimDINO 和 SimDINOv2 對超參數和數據的變化更穩健了。

其它

此外,項目論文中通過理論分析,提出了一個關于 SimDINO 超參數選擇的理論:

如何平衡編碼率正則化項和距離項的梯度範數。

通過理論推導,作者給出了一個關于超參數 γ 的選擇方法,使得兩個項的梯度範數在優化過程中保持平衡。

下圖顯示的是在 SimDINO 和 DINO 下訓練 ViT-B/16 的訓練動态。

X 軸表示訓練周期(epochs),Y 軸表示在 ImageNet-1K 上的 k-NN 評估性能。

其中,左圖顯示的是兩個模型均在 ImageNet-1K 數據集上訓練。

為更好地展示優化過程,研究團隊省略了早期訓練階段的數據。

右圖顯示的是兩個模型均在 COCO train2017 數據集(大約是 ImageNet-1K 的 1/10)上訓練。

作為一個驗證實驗,該結果表明 SimDINO 需要更少的超參數調優,并且優化過程更加簡單。

研究團隊

SimDINO 系列由多所學校與機構的研究者共同完成,包括 UC 伯克利、憶生科技、微軟研究院、香港大學等。

一作是 UC 伯克利三年級博士生吳梓陽,導師是馬毅。

他主要研究方向為表征學習與多模态學習,致力于通過數學與統計理論構建高效、可解釋的深度學習模型。

此前,吳梓陽本碩均就讀于康奈爾大學。

在論文最後,SimDINO 研究團隊進一步提出和建議了 SimDINO 的幾個潛在改進方向:

在 SimDINO 框架基礎上進一步探索不需要自蒸餾優化的自監督目标。

簡化後的框架為自監督學習的理論分析提供了更好的切入點。

将 " 顯式化隐式設計選擇 " 的範式推廣到其他框架,啟發并探索其他模型的簡化改進方法。

論文地址:https://arxiv.org/abs/2502.10385

項目主頁:https://robinwu218.github.io/SimDINO

GitHub:https://github.com/RobinWu218/SimDINO

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們