今天小編分享的科學經驗:比Meta「分割一切AI」更早實現互動式開集分割!港科大開放詞表分割大法入選ICCV 2023,歡迎閱讀。
ICCV 論文收錄名單近日「開獎」,其中就包括這個港科大一作的影像分割模型!
它能以更低的訓練成本實現更好的效果,哪怕遇到未知物體也能迎刃而解。
此外據作者介紹,它還是第一個擁有基于 box prompts 的分割能力的 AI 模型,比 Meta 的 SAM 還要早實現。
這篇論文第一版預印本的發布時間是今年的 3 月 14 日(北京時間 15 日),比 SAM早了 20 多天。
那麼,這個影像分割模型,究竟效果如何,又是如何做到的呢?
(以下内容由投稿者提供)
下圖展示了這個名為 OpenSeeD 的模型的輸出效果:
它既可以做經典的實例、語義以及全景分割,又可以分割出從未見過的物體類别,還可以基于檢測框分割出從未見過的物體并給出正确的類别。
工作原理
OpenSeeD 是一個簡單而有效的開放詞表影像分割的框架,也可以理解為 MaskDINO 擴展到開放詞表的版本。
如下圖所示,過去已經有不少工作結合大量的影像文本對實現開詞表檢測或者分割,而 OpenSeeD 是第一個把物體檢測數據和全景分割數據結合在一起聯合訓練的工作,并且證明是可行有效的,填補了這一領網域的空白。
除此以外,為了擴展語義的豐富程度,研究團隊引入 O365(365 類)檢測數據和 COCO 分割(133 類)一起訓練(不同于 MaskDINO 使用 O365 預訓練)。
由于使用了不同的數據集,研究團隊需要解決了二者之間的數據和任務的差異,以便兩個任務和詞表兼容。
整體上,OpenSeeD 的工作原理如下圖所示,兩種差異也是通過這一方式解決的:
圖中左半部分完成的是通用場景分割。
為了解決基礎模型的任務差别(O365 只有前景,而 COCO 有前景和背景),研究團隊把前景和背景的預測進行解耦。
右半部分是條件預測部分,可以通過 GT box 預測影像遮罩。
在這一部分中,團隊通過為 O365 打标籤為了解決數據差異問題。
最終,該團隊的方法在多個開放詞表任務上取得了與當前最佳方法 x-decoder 相當甚至更好的效果,相比 x-decoder 用了 4M 人工标注的影像描述數據,OpenSeeD 只用了 0.57M 的檢測數據。
另外,研究團隊還發現,即使只用 5k 的 O365 數據,也可以在開放詞表任務上達到類似的效果。
這說明 OpenSeeD 需要的是豐富的視覺概念(種類數),而不一定是很大的數據量(個體數)。
低成本,高效果
OpenSeeD 作為一個強大的開集分割方法,可以分割出大量從未見過的物體,在各項開集和閉集指标上都取得了最佳成績。
而且通過引入 O365 檢測任務來提升開集語義能力,OpenSeeD 的訓練成本也相對其他開集方法更低。
下表展示了 OpenSeeD 的測試結果:
通過較少的檢測數據,研究團隊發現在多個零訓練樣本分割任務上達到或超越了現有最佳方法 X-Decoder,GLIPv2 等,尤其在 SeginW 任務(大量陌生類别)上取得了遠超 X-Decoder 的效果。
除此以外,當團隊微調到其他數據集時,OpenSeeD 都表現出了遠超參照标準的性能。
在 COCO 和 ADE20K 的全景分割以及 ADE20K 和 Cityscapes 的實例分割上,OpenSeeD 的性能也與現有最佳模型相當。
論文地址:
https://arxiv.org/abs/2303.08131