今天小编分享的科学经验:比Meta「分割一切AI」更早实现互動式开集分割!港科大开放词表分割大法入选ICCV 2023,欢迎阅读。
ICCV 论文收录名单近日「开奖」,其中就包括这个港科大一作的影像分割模型!
它能以更低的训练成本实现更好的效果,哪怕遇到未知物体也能迎刃而解。
此外据作者介绍,它还是第一个拥有基于 box prompts 的分割能力的 AI 模型,比 Meta 的 SAM 还要早实现。
这篇论文第一版预印本的发布时间是今年的 3 月 14 日(北京时间 15 日),比 SAM早了 20 多天。
那么,这个影像分割模型,究竟效果如何,又是如何做到的呢?
(以下内容由投稿者提供)
下图展示了这个名为 OpenSeeD 的模型的输出效果:
它既可以做经典的实例、语义以及全景分割,又可以分割出从未见过的物体类别,还可以基于检测框分割出从未见过的物体并给出正确的类别。
工作原理
OpenSeeD 是一个简单而有效的开放词表影像分割的框架,也可以理解为 MaskDINO 扩展到开放词表的版本。
如下图所示,过去已经有不少工作结合大量的影像文本对实现开词表检测或者分割,而 OpenSeeD 是第一个把物体检测数据和全景分割数据结合在一起联合训练的工作,并且证明是可行有效的,填补了这一领網域的空白。
除此以外,为了扩展语义的丰富程度,研究团队引入 O365(365 类)检测数据和 COCO 分割(133 类)一起训练(不同于 MaskDINO 使用 O365 预训练)。
由于使用了不同的数据集,研究团队需要解决了二者之间的数据和任务的差异,以便两个任务和词表兼容。
整体上,OpenSeeD 的工作原理如下图所示,两种差异也是通过这一方式解决的:
图中左半部分完成的是通用场景分割。
为了解决基础模型的任务差别(O365 只有前景,而 COCO 有前景和背景),研究团队把前景和背景的预测进行解耦。
右半部分是条件预测部分,可以通过 GT box 预测影像遮罩。
在这一部分中,团队通过为 O365 打标签为了解决数据差异问题。
最终,该团队的方法在多个开放词表任务上取得了与当前最佳方法 x-decoder 相当甚至更好的效果,相比 x-decoder 用了 4M 人工标注的影像描述数据,OpenSeeD 只用了 0.57M 的检测数据。
另外,研究团队还发现,即使只用 5k 的 O365 数据,也可以在开放词表任务上达到类似的效果。
这说明 OpenSeeD 需要的是丰富的视觉概念(种类数),而不一定是很大的数据量(个体数)。
低成本,高效果
OpenSeeD 作为一个强大的开集分割方法,可以分割出大量从未见过的物体,在各项开集和闭集指标上都取得了最佳成绩。
而且通过引入 O365 检测任务来提升开集语义能力,OpenSeeD 的训练成本也相对其他开集方法更低。
下表展示了 OpenSeeD 的测试结果:
通过较少的检测数据,研究团队发现在多个零训练样本分割任务上达到或超越了现有最佳方法 X-Decoder,GLIPv2 等,尤其在 SeginW 任务(大量陌生类别)上取得了远超 X-Decoder 的效果。
除此以外,当团队微调到其他数据集时,OpenSeeD 都表现出了远超参照标准的性能。
在 COCO 和 ADE20K 的全景分割以及 ADE20K 和 Cityscapes 的实例分割上,OpenSeeD 的性能也与现有最佳模型相当。
论文地址:
https://arxiv.org/abs/2303.08131