蒸餾任何深度，僅用少量無标籤數據就能實現單目深度估計新SOTA

今天小編分享的科學經驗：蒸餾任何深度，僅用少量無标籤數據就能實現單目深度估計新SOTA，歡迎閲讀。

單目深度估計新成果來了！

西湖大學 AGI 實驗室等提出了一種創新性的蒸餾算法，成功整合了多個開源單目深度估計模型的優勢。

在僅使用 2 萬張無标籤數據的情況下，該方法顯著提升了估計精度，并刷新了單目深度估計的最新 SOTA 性能。

這一技術突破不僅提升了單目深度估計的魯棒性，還大幅降低了對标注數據的依賴，使得該技術能夠更容易地應用于數據匮乏的場景。

此外，單目深度估計的進步也進一步推動了 2D 到 3D 内容轉換技術，使得單張圖片的 3D 建模更加精準高效。随着這一研究的推進，單目深度估計将在更多領網域實現高效、低成本的三維感知，為人工智能和計算機視覺的發展提供更強有力的支持。

該成果由西湖大學 AGI 實驗室、浙江工業大學等部門的研究人員共同完成的。

目前，該研究的推理代碼、模型和 Demo 已經上線，感興趣的讀者可以通過文章最後的鏈接體驗并試用該技術。

自動駕駛、考古中都會使用單目深度估計

在計算機視覺領網域，單目深度估計是一項備受關注的任務，它能夠僅憑一張 RGB 影像推測場景的深度信息，為三維空間的重建提供了關鍵支持。相比于依賴多攝像頭或激光雷達的傳統深度感知技術，單目深度估計具有低成本、易部署的優勢，因此在多個領網域展現出廣闊的應用前景。

單目深度估計的應用範圍極其廣泛，在自動駕駛中，車輛需要精準感知周圍環境的深度信息，以确保安全駕駛和高效避障；在機器人導航方面，深度估計增強了機器人的環境感知能力，使其能夠自主規劃路徑、避開障礙物；在增強現實（AR）和虛拟現實（VR）技術中，可靠的深度估計能使虛拟對象更自然地融入現實世界，為用户帶來更具沉浸感的體驗。

此外，在考古學和文化遺產保護方面，該技術能夠對歷史文物進行精确的三維重建，避免傳統測量手段的損傷風險。影視制作和遊戲開發高度依賴深度信息來實現逼真的光影效果和環境渲染，增強沉浸式體驗。在 2D 和 3D 生成領網域，單目深度估計技術也發揮着重要作用。

例如，在影像生成與編輯中，深度信息可用于生成視差效果、動态光照調整、甚至是從單張圖片中推理出完整的三維結構。在 AI 驅動的内容生成（如虛拟角色建模、數字孿生）中，單目深度估計提供了強大的幾何信息支持。建築與室内設計也受益于單目深度估計，設計師可以利用該技術快速構建三維模型，實現虛拟預覽，優化空間利用。

盡管單目深度估計擁有巨大的潛力，但其面臨的挑戰同樣不容忽視。在不同光照條件、復雜紋理、動态場景等情況下，現有方法的魯棒性和精度仍然存在提升空間，限制了單目深度估計在實際應用中的可靠性。此外，深度估計模型往往依賴大規模标注數據進行訓練，而獲取高質量深度數據集成本較高，這進一步限制了其推廣。

Distill Any Depth正是為此而來。

它提出了一種基于跨上下文與多教師模型的蒸餾框架，能夠同時從多個深度估計模型中學習，從而提升深度估計的精度和魯棒性。具體實現過程如下：

單目深度估計偽标籤蒸餾的瓶頸：歸一化問題

單目深度估計技術旨在通過單張 RGB 影像推斷場景的深度信息，廣泛應用于自動駕駛、增強現實及 3D 場景理解等多個領網域。随着技術的不斷進步，研究者們逐步提出了更為創新的解決方案，尤其是在歸一化深度表示和偽标籤蒸餾學習方法方面，前者通過優化深度表征，後者則借助大規模無标籤數據來提高模型的泛化能力。盡管這些方法在一定程度上推動了深度估計技術的發展，但仍存在一個顯著瓶頸——歸一化處理方式的選擇。

目前，基于蒸餾的深度估計方法通常依賴全局歸一化策略，盡管該策略能夠在一定程度上提升模型的穩定性，但卻放大了噪聲偽标籤，進而降低了蒸餾的效果。這一問題尤為突出，尤其在面對復雜的場景時，歸一化處理往往限制了模型的性能。因此，如何克服這一挑戰，并在蒸餾過程中提高信息傳遞與學習效率，成為了當前研究中的核心問題。

在圖示中，研究人員比較了兩種對齊策略：

全局最小二乘法：在對齊前對整個影像進行歸一化。

局部最小二乘法：在裁剪區網域内進行歸一化對齊。

如圖所示，局部歸一化策略相較于全局歸一化，在局部區網域的準确性上表現更好。全局歸一化會影響到局部精度，而局部歸一化則能更好地保留細節信息，因此局部歸一化在提升模型性能方面具有更大的潛力。

創新突破：更細化、多教師聯合的偽标籤蒸餾算法

基于以上的發現，針對傳統深度歸一化方法中存在的問題，研究團隊進行了總結分析，并提出兩項創新性技術：

1、系統性分析不同深度歸一化策略對偽标籤蒸餾的影響：研究團隊深入探讨了全局歸一化和局部歸一化在蒸餾過程中的作用，重點分析了它們對模型性能的影響。特别是在精細化深度預測中，局部歸一化相較于全局歸一化，能夠更好地保留局部細節信息并減小噪聲偽标籤的影響。通過實驗發現，混合歸一化方法結合了全局和局部的深度信息，有效提高了預測精度。下圖展示了不同歸一化策略下，紅點标記的歸一化區網域内的像素分布，結果表明，混合歸一化在多個場景中均表現出了優異的性能。

跨上下文蒸餾：針對蒸餾過程中的信息傳遞問題，研究團隊提出了一種結合局部和全局深度信息的蒸餾框架—— " 跨上下文蒸餾 "。該框架通過優化偽标籤質量，提高了模型的魯棒性，具體分為兩種場景：

共享上下文蒸餾：教師模型與學生模型使用相同的影像進行蒸餾，使得兩者之間的深度信息保持一致。

局部 - 全局蒸餾：在該模式下，教師模型專注于重疊區網域進行深度預測，而學生模型則在整個影像上進行預測。通過局部 - 全局損失，确保了局部與全局預測的一致性，從而使得學生模型能夠同時學習細節與全局結構，顯著提升了深度估計的精度與魯棒性。

2、多教師蒸餾框架：為了進一步增強蒸餾效果，研究團隊引入了多教師模型機制。在每次訓練迭代時，随機選擇一個教師模型為無标籤影像生成偽标籤。不同教師模型的互補優勢為蒸餾過程提供了更多的知識，使得學生模型能夠綜合多個視角的深度估計信息。通過這種多教師框架，深度預測的穩定性和準确性得到了顯著提高，特别是在面對多樣化場景時，模型展現出了更強的魯棒性。

實驗結果

在多個公開基準數據集上的實驗結果表明，"Distill Any Depth" 方法在定量和定性分析中均表現出了顯著的性能優勢，尤其在野外環境中的深度估計任務中，所提出的方法顯著提升了模型的魯棒性和泛化能力。

定性分析研究團隊展示了來自 "Distill Any Depth" 方法與其他經典深度估計模型（如 MiDaS v3.1、DepthAnythingv2、Marigold 等）的深度估計結果。與現有的最先進方法相比，團隊提出的模型在細節層次上表現得更加精準，特别是在影像得標注位置（如黑色箭頭所示）的深度估計上，展現了更細粒度的深度估計效果。

同時下面的大量例子表明，特别是在復雜環境下（如簡筆畫、頭發、卡通場景等），該方法依然能夠產生清晰的邊緣和更詳細的深度圖，展示了其卓越的魯棒性和精度。

定量分析：

實驗結果顯示，基于新提出的蒸餾框架，模型在不同 benchmark 下的深度估計表現顯著優于現有最先進方法。尤其是在 NYUv2、ScanNet 等結構化室内場景和 KITTI、DIODE、ETH3D 等復雜的户外環境下，所提出的方法都展現出了強大的泛化能力。優化偽标籤蒸餾和深度歸一化後，學生模型不僅超越了教師模型，還在多個基準測試中創下了新的 SOTA，充分證明了該方法的有效性。

總結與展望

總體而言，"Distill Any Depth" 方法通過引入創新的多教師蒸餾框架和跨上下文蒸餾技術，顯著提高了單目深度估計的精度和魯棒性。該方法成功克服了傳統深度歸一化策略的局限，為無标籤數據的有效利用提供了全新的思路和解決方案。通過這種技術，深度估計的性能不僅得到了提升，也為進一步拓展深度估計的應用場景奠定了基礎。

随着該方法的不斷優化和推廣，未來有望在自動駕駛、3D 重建、增強現實以及 AGI 等領網域中發揮重要作用。特别是在復雜場景下的應用中，預計該方法能夠進一步提升模型的泛化能力和實用性，從而推動相關領網域技術的突破與進步。

展望未來，"Distill Any Depth" 方法仍有進一步發展的空間，尤其是在算法優化、計算效率和跨領網域适應性等方面，随着更多創新的出現，單目深度估計技術将在更多實際應用中取得顯著進展。

在線試用：

https://huggingface.co/spaces/xingyang1/Distill-Any-Depth

論文鏈接：https://arxiv.org/abs/2502.19204

項目主頁：https://distill-any-depth-official.github.io/

代碼倉庫：https://github.com/Westlake-AGI-Lab/Distill-Any-Depth

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍