吉娃娃or松餅難題被解決！IDEA研究院新模型打通文本視覺Prompt，連黑客帝國的子彈都能數清楚

今天小編分享的科學經驗：吉娃娃or松餅難題被解決！IDEA研究院新模型打通文本視覺Prompt，連黑客帝國的子彈都能數清楚，歡迎閱讀。

還記得黑客帝國經典的子彈時間嗎？

IDEA 研究院最新檢測模型T-Rex2，可以齊刷刷給全部識别出來 ~

而面對難倒一眾大模型「吉娃娃 or 松餅」的難題，它只需被投喂一張吉娃娃的照片，就能瞬間迎刃而解。

此前，也是同樣的團隊，推出了基于視覺提示的。

如今，他們将視覺和文本提示融合，相互彌補各自的缺陷，實現了更強的目标檢測能力。

并且與多目标跟蹤模型結合後，各種視頻檢測任務也不在話下。

來看新研究到底說了什麼。

打通文本和視覺提示

在開集目标檢測領網域，盡管文本提示受到一定的青睐，但也存在一定的局限性。

比如長尾數據短缺。稀有或者全新的物體類别的數據稀缺可能會削弱其學習效率。還有描述上的局限性，對于一些難以用語言描繪的對象，因受限于無法精确描述，也會削弱效果。

而視覺提示提供了更直觀且直接的對象表示方法，但在捕捉常見對象的概念時效果就會很差。

T-Rex2通過對比學習在單個模型中整合兩種提示，因此接受多種格式的輸入，包括文本提示、視覺提示以及兩者的組合。

在不同場景中，它可以通過在兩種提示方式之間切換來處理。

因此，它大致有三種工作模式：

文本提示模式、互動式視覺提示模式、通用視覺提示模式。

以通用視覺提示模式為例，用戶可以通過向模型提供任意數量的示例圖片，來自定義特定對象的視覺嵌入，然後使用這個嵌入來檢測任意影像中的對象。

也就是不需要用戶與模型直接互動，就能完成檢測任務。

最終在在四個學術基準測試集 COCO, LVIS, ODinW, 和 Roboflow100 上取得了 Zero-Shot SOTA 的性能。

開箱即用諸多領網域

無需重新訓練或微調，T-Rex2 即可檢測模型在訓練階段從未見過的物體。

該模型不僅可應用于包括計數在内的所有檢測類任務，還為智能互動标注領網域提供新的解決方案。

除此之外，結合現有的多目标跟蹤模型（如 ByteTrack ) ，T-Rex2 還可用于視頻檢測任務。

事實上，這種跨圖檢測能力，讓目标檢測技術在生產生活中可以真正開始廣泛應用。

比如工業生產流水線器件檢測，交通航運領網域的船舶、飛機檢測，農業領網域的農作物、果蔬檢測，生物醫學領網域的細胞、組織檢測，物流領網域的貨物檢測，環境領網域的野生動物監測等。

現在，T-Rex2 讓通用物體檢測又邁出了新的一步。

試玩鏈接：

https://deepdataspace.com/playground/ivp

T-Rex2 API：https://github.com/IDEA-Research/T-Rex

論文鏈接：

https://arxiv.org/abs/2403.14610