今天小編分享的科學經驗:AI能看懂細節了!IDEA研究院多模态目标檢測模型DINO-XSeek,自然語言精準定位目标,歡迎閲讀。
AI 能看懂細節了!
IDEA 研究院發布基于多模态大語言模型的目标檢測模型 DINO-XSeek。
結合視覺與語言理解,只需通過自然語言描述,DINO-XSeek 就能精準定位復雜場景中的目标。
比如這張圖。
消防員手持噴水槍,站在執行任務的消防車雲梯上。
結果它能精準識别出來這個正在工作的消防員。
在人來人往的米蘭大教堂前,找到個有金色頭發的人 ~
結果也精準識别出來了。
基于 IDEA 研究院 DINO-X 統一視覺模型,DINO-XSeek 在精準感知能力的基礎上,融合了多模态大語言模型的推理與理解能力。
它的核心突破在于,不僅能識别名詞層級的目标(如 " 女孩 "),還能聯合解析形容詞(如 " 紅色上衣 ")和介詞(如 " 站在旁邊 "),真正讓 AI 看懂細節。
無論是 " 穿紅色上衣的女孩 " 還是 " 站在白衣男生旁邊的她 ",DINO-XSeek 都能準确檢測。
傳統目标檢測模型雖然在目标感知上表現優異,但缺乏對復雜語言的理解能力。大語言模型在文本理解方面突出,卻在精确目标定位上存在短板。
為了解決這一矛盾,DINO-XSeek 參考 ChatRex 的模型架構,采用了一種檢索式框架。
即先使用開集目标檢測模型 DINO-X 檢測影像中的所有物體,并生成候選目标的邊界框。
然後,大語言模型根據指代表達,從檢測出的目标集合中檢索最相關的對象,而非直接預測坐标。
△DINO-XSeek 模型概覽圖。其主要有三部分組成,包括提取視覺 token 的視覺編碼器、提取物體 token 的目标檢測模型,以及提取文本 token 的 tokenizer。三種 token 一起送入 LLM 中,進行物體索引預測。
現有主流方法,往往僅針對單實例進行訓練和推理,難以應對現實世界中一條指代描述對應多個目标的情況。
這一設計避免了傳統 MLLM 在檢測任務上的泛化難題,使得 DINO-XSeek 能精準處理多實例指代任務。
通過自然語言描述,DINO-XSeek 可以推理出待檢測目标的屬性(如顏色、大小、姿勢、穿着等)、方位(如朝向、距離、深度等)或者(物品之間或與環境的)互動關系,從而實現精準的目标定位。DINO-XSeek 實現了指代表達理解(Referring Expression Comprehension, REC)。REC 是計算機視覺與自然語言理解交叉領網域的核心任務,旨在通過自然語言描述精準定位影像中的目标對象。DINO-XSeek 通過多模态融合和高級語義推理,為 REC 任務提供了更強大的解決方案。
△DINO-XSeek 識别結果。在工業制造與質檢、安防等行業應用潛力廣泛。
與主流目标檢測模型以物體為核心不同,DINO-XSeek 以 " 理解物體屬性及關系 " 為核心,不再孤立地關注物體本身,而是專注于物體相關的處理邏輯。
具體而言,以人類學習為例,以物體為核心的模型更像是幼兒啓蒙階段對物體的認知,如幼兒會辨認道路的 " 車 "。随着見識(即數據)增長,部分高階的認知能夠進一步識别物體基礎的屬性以及關系,如 " 紅色的車 "、" 前面的車 "、" 大的車 "、" 貨車 ",但仍舊難以理解 " 正在執行任務的消防車 " 之類的更復雜的描述。
相比之下,DINO-XSeek 則像是一位學生,已經建立起知識儲備和對事務邏輯的理解,能夠對 " 正在執行任務的消防車的雲梯上拿着噴水槍的消防員 " 這樣復雜的描述進行正确的辨認,而不是簡單地标記 " 消防車 " 或 " 消防員 ",真正實現了近似人類對復雜場景的理解能力。
以 " 理解物體屬性及關系 " 為切入點意味着,DINO-XSeek 将能夠根據用户輸入的業務處理邏輯來完成相關的目标檢測任務,降低在實際生產應用中,用户基于視覺模型進行二次處理的後置開發成本。
舉個例子,在當前的工廠流水線中,企業在使用視覺模型檢測出零部件存在缺陷以後,需要進一步對缺陷進行分類,如劃痕、裂紋、尺寸偏差等,并統計各種缺陷的出現頻率和分布情況,為生產工藝的改進提供數據支持。
而 DINO-XSeek 為生產工藝智能化提供了更多想象。比如通過使用 DINO-XSeek 精準區分出 " 劃痕過多的零部件 "、" 帶裂紋的零部件 " 或者 " 尺寸不合格的零部件 ",企業便可以實現零部件缺陷的檢測和分類工作全自動化,無需再像之前一樣投入巨大的資源對零部件缺陷進行進一步分類和統計。
安全合規檢測:識别「未佩戴護目鏡的操作員」「進入危險區網域的工人」,觸發語音警告。
△DINO-XSeek 識别結果。提示詞:The worker not wearing a safety helmet(沒有戴安全帽的工人)
△DINO-XSeek 識别結果。提示詞:The worker under the steel bars(在鋼筋下面的工人)
質量檢測:針對流水線上生產的零部件或最終成品,自動識别并分類各種缺陷(如劃痕、裂紋、尺寸偏差),為工藝改進提供更精準的數據參考。
△DINO-XSeek 識别結果。提示詞:abnormal light(異常光線)
智能家居與生活
危險行為識别:在家庭場景中自動識别老人意外摔倒等高風險狀況,及時通知看護人員或發出緊急警告。
△提示詞:The person who fell(摔倒的人)
農業與食品
農作物檢測:根據發育程度對農作物進行分類,或識别腐壞、病蟲害侵染的果實,有效提升種植和收獲效率。
△提示詞:Bad apple(壞蘋果)
自動駕駛
道路場景識别:對車載攝像頭拍攝的道路影像進行标注,識别出道路、交通标志、車道線、行人、其他車輛等目标,幫助自動駕駛汽車理解周圍環境,做出正确的行駛決策。
△DINO-XSeek 識别結果。提示詞:The road sign pointing to Soral(指向 Soral 的路标)
障礙物檢測:及時标注出影像中的障礙物,如路邊的障礙物、突然出現的動物等,使自動駕駛系統能夠提前做出制動或避讓等操作,保障行車安全。
△DINO-XSeek 識别結果。提示詞:Tree on the road(路上的樹)
關于新模型就介紹到這裏,歡迎大家體驗 ~
論文鏈接:
官網: https://deepdataspace.com/
Blog: https://deepdataspace.com/blog/dino-xseek
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!