今天小編分享的科學經驗:吉娃娃or松餅難題被解決!IDEA研究院新模型打通文本視覺Prompt,連黑客帝國的子彈都能數清楚,歡迎閱讀。
還記得黑客帝國經典的子彈時間嗎?
IDEA 研究院最新檢測模型T-Rex2,可以齊刷刷給全部識别出來 ~
而面對難倒一眾大模型「吉娃娃 or 松餅」的難題,它只需被投喂一張吉娃娃的照片,就能瞬間迎刃而解。
此前,也是同樣的團隊,推出了基于視覺提示的。
如今,他們将視覺和文本提示融合,相互彌補各自的缺陷,實現了更強的目标檢測能力。
并且與多目标跟蹤模型結合後,各種視頻檢測任務也不在話下。
來看新研究到底說了什麼。
打通文本和視覺提示
在開集目标檢測領網域,盡管文本提示受到一定的青睐,但也存在一定的局限性。
比如長尾數據短缺。稀有或者全新的物體類别的數據稀缺可能會削弱其學習效率。還有描述上的局限性,對于一些難以用語言描繪的對象,因受限于無法精确描述,也會削弱效果。
而視覺提示提供了更直觀且直接的對象表示方法,但在捕捉常見對象的概念時效果就會很差。
T-Rex2通過對比學習在單個模型中整合兩種提示,因此接受多種格式的輸入,包括文本提示、視覺提示以及兩者的組合。
在不同場景中,它可以通過在兩種提示方式之間切換來處理。
因此,它大致有三種工作模式:
文本提示模式、互動式視覺提示模式、通用視覺提示模式。
以通用視覺提示模式為例,用戶可以通過向模型提供任意數量的示例圖片,來自定義特定對象的視覺嵌入,然後使用這個嵌入來檢測任意影像中的對象。
也就是不需要用戶與模型直接互動,就能完成檢測任務。
最終在在四個學術基準測試集 COCO, LVIS, ODinW, 和 Roboflow100 上取得了 Zero-Shot SOTA 的性能。
開箱即用諸多領網域
無需重新訓練或微調,T-Rex2 即可檢測模型在訓練階段從未見過的物體。
該模型不僅可應用于包括計數在内的所有檢測類任務,還為智能互動标注領網域提供新的解決方案。
除此之外,結合現有的多目标跟蹤模型( 如 ByteTrack ) ,T-Rex2 還可用于視頻檢測任務。
事實上,這種跨圖檢測能力,讓目标檢測技術在生產生活中可以真正開始廣泛應用。
比如工業生產流水線器件檢測,交通航運領網域的船舶、飛機檢測,農業領網域的農作物、果蔬檢測,生物醫學領網域的細胞、組織檢測,物流領網域的貨物檢測,環境領網域的野生動物監測等。
現在,T-Rex2 讓通用物體檢測又邁出了新的一步。
試玩鏈接:
https://deepdataspace.com/playground/ivp
T-Rex2 API:https://github.com/IDEA-Research/T-Rex
論文鏈接:
https://arxiv.org/abs/2403.14610