今天小編分享的科學經驗:中科院版「分割一切」模型來了,比Meta原版提速50倍,歡迎閲讀。
比 Meta 的「分割一切模型」 ( SAM ) 更快的影像分割工具,來了!
最近中科院團隊開源了 FastSAM 模型,能以50 倍的速度達到與原始 SAM 相同的效果,并實現 25FPS 的實時推理。
該成果在 Github 已經獲得 2.4K+ 次星标,在 Twitter、PaperswithCode 等平台也受到了廣泛關注。
相關論文預印本現已發表。
以下内容由投稿者提供
視覺基礎模型 SAM [ 1 ] 在許多計算機視覺任務中產⽣了重⼤影響。它已經成為影像分割、影像描述和影像編輯等任務的基礎。
然⽽,其巨⼤的計算成本阻礙了它在實際場景中的⼴泛應⽤。
最近,中科院⾃動化所提出并開源了⼀種加速替代⽅案 FastSAM。
通過将分割⼀切任務重新劃分為全實例分割和提⽰指導選擇兩個⼦任務,⽤帶實例分割分⽀的常規 CNN 檢測器以⾼出 50 倍的運⾏速度實現了與 SAM ⽅法相當的性能,是⾸個實時分割⼀切的基礎模型。
意義與動機
SAM 的出現帶動了 " 分割⼀切 "(Segment Anything)任務的發展。這⼀任務由于其泛化性和可擴展性,有很⼤可能成為未來⼴泛視覺任務的基礎。
FastSAM 為該任務提供了⼀套實時解決⽅案,進⼀步推動了分割⼀切模型的實際應⽤和發展。
本⽂将 " 分割⼀切 " 任務解耦為全實例分割和提⽰引導選擇兩階段,通過引⼊⼈⼯先驗結構,在提速 50 倍的情況下實現了與 SAM 相近的表現。
FastSAM 的優秀表現為視覺任務的架構選擇提供了新的視角——對于特定任務,專用模型結構或許在計算效率和精确度上仍具有優勢。
從模型壓縮的⾓度看,FastSAM 也證明了基于大模型產生高質量數據,通過引⼊⼈⼯先驗結構大幅降低計算復雜度的路徑的可⾏性。
示例 Web DEMO
在 HuggingFace 的 Space 中,你可以快速體驗 FastSAM 的分割效果。
你可以上傳一張自定義的圖片,選擇模式并設定參數,點擊分割按鈕,就可以得到一個滿意的分割結果。
現在支持一切模式和點模式的互動,其他模式将在未來嘗試支持。在 Replicate 上已支持所有模式的在線體驗。
多種互動⽅式
FastSAM 目前共支持三種互動方式。
多點互動模式
FastSAM ⽀持多個帶有前景 / 背景标籤的點互動模式,可以很好地适應不同場景的應⽤需求。
以缺陷檢測場景為例,只需對缺陷部位添加前景點,對正常藥丸部分添加背景點,即可準确地檢測出物體缺陷。
框互動模式
FastSAM 也⽀持框互動模式。也以缺陷檢測為例,只需對缺陷⼤致位置進⾏框選,即可準确檢測出物體缺陷。
⽂本互動模式
FastSAM 也⽀持并開源了⽂本互動模式。通過不同的⽂本提示,FastSAM 可以準确分割出不同顏⾊的⼩狗。
工作原理
如下圖所示,FastSAM 的網絡架構可分為兩個階段:全實例分割和提示引導選擇。
在全實例分割階段,FastSAM 使用卷積神經網絡來對影像中的所有對象或區網域進行劃分。
在提示引導選擇階段,它采用包括點提示、框提示和文本提示的各種提示來選出關注對象。
與基于 Transformer 的方法不同,FastSAM 融合了與視覺分割任務緊密相關的先驗知識,例如局部連接和對象分配策略。這使得它以更低地參數量和計算量下更快地收斂。
定性與定量分析
測試結果表明,FastSAM 各方面的表現完全不輸于 Meta 的原始版本。
速度
從表中可以看出,FastSAM 取得了遠超 SAM 的速度表現,在「分割⼀切」模式下,SAM 的速度會受到均勻點提⽰數量的影響,⽽ FastSAM 由于結構的特點,運⾏時間不随點提⽰數量的增加⽽增加,這使得它成為「分割⼀切」模式的更好選擇。
同時,由于 FastSAM 在結構設計中利⽤了⼈的先驗知識,使得它在實時推理的同時也具備了與 SAM 相當的性能。
邊緣檢測
下圖展⽰了具有代表性的邊緣檢測結果。經過定性觀察可以看出,盡管 FastSAM 的參數明顯較少(只有 68M),但它也能產⽣很⾼質量的邊緣檢測結果。
從下表可以看出,FastSAM 取得了與 SAM 類似的性能。與 Ground Truth 相⽐,FastSAM 和 SAM 都傾向于預測更多的邊緣,這種偏差在表中得到了定量的反映。
物體候選
從下表可以看出,FastSAM 在 bbox AR@1000 的表現上超過了計算量最⼤的 SAM 模型(SAM-H E64),僅次于在 LVIS 數據集上監督訓練的 ViTDet-H [ 2 ] 。
可視化結果
SA-1B 分割結果:下圖展⽰了 FastSAM 在 SA-1B 數據集上不同場景和掩碼數量時的分割結果。
下遊應⽤對⽐:下⾯三張圖對⽐了 FastSAM 和 SAM 在異常檢測、顯著物體分割和建築物提取三個下遊任務的效果,FastSAM 在不同模式下均取得了和 SAM 相當的表現。
參考⽂獻
[ 1 ] Kirillov A, Mintun E, Ravi N, et al. Segment anything [ J ] . arXiv preprint arXiv:2304.02643, 2023.
[ 2 ] Li J, Yang T, Ji W, et al. Exploring denoised cross-video contrast for weakly-supervised temporal action localization [ C ] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.
論文地址:
https://arxiv.org/abs/2306.12156
GitHub 項目頁:
https://github.com/CASIA-IVA-Lab/FastSAM
HuggingFace DEMO:
https://huggingface.co/spaces/An-619/FastSAM
Replicate demo:
https://replicate.com/casia-iva-lab/fastsam