空間智能版ImageNet來了！李飛飛吳佳俊團隊出品

今天小編分享的科技經驗：空間智能版ImageNet來了！李飛飛吳佳俊團隊出品，歡迎閱讀。

空間智能版 ImageNet 來了，來自斯坦福李飛飛吳佳俊團隊！

HourVideo，一個用于評估多模态模型對長達一小時視頻理解能力的基準數據集，包含多種任務。

通過與現有模型對比，揭示當前模型在長視頻理解上與人類水平的差距。

2009 年，李飛飛團隊在 CVPR 上首次對外展示了影像識别數據集ImageNet，它的出現極大推動計算機視覺算法的發展——懂 CV 的都是知道這裡面的門道有多深。

現在，随着多模态迅猛發展，團隊認為 " 現有的視頻基準測試，大多集中在特定領網域或短視頻上 "，并且 " 這些數據集的平均視頻長度較短，限制了對長視頻理解能力的全面評估 "。

于是，空間智能版 ImageNet 應運而生。

HourVideo 包含 500 個來自 Ego4D 數據集的第一人稱視角視頻，時長在 20 到 120 分鍾之間，涉及 77 種日常活動。

評測結果表示，人類專家水平顯著優于目前長上下文多模态模型中最厲害的 Gemini Pro 1.5（85.0% 對 37.3%）。

在多模态能力上，大模型們還任重而道遠。

HourVideo 如何煉成？

之所以提出 HourVideo，是因為研究人員發現目前長視頻理解越來越重要，而現有評估 benchmark 存在不足。

多模态越來越卷，人們期待 AI 被賦予 autonomous agents 的類似能力；而從人類角度來看，由于人類具備處理長時間視覺處理的能力，因此能在現實視覺中感知、計劃和行動。

因此，長視頻理解對實現這一目标至關重要。

而當前的多模态評估 benchmark，主要還是集中在評測單張影像或短視頻片段（幾秒到三分鍾），對長視頻理解的探索還有待開發。

不可否認的是，AI 評估長視頻理解面臨諸多挑戰，譬如要設計任務、避免通過先驗知識或簡短片斷回答等。

因此，團隊提出HourVideo。

這是一個為長視頻理解而設計的基準數據集。

為了設計出需要長期理解的任務，團隊首先提出了一個新的任務對應套件，包含總結、感知（回憶、跟蹤）、視覺推理（空間、時間、預測、因果、反事實）和導航（房間到房間、對象檢索）任務，共 18 個子任務。

其中，總結任務要求模型對視頻中的關鍵事件、主要互動等進行概括性描述，例如總結出脖子上挂了個相機的人在超市中有什麼關鍵互動行為。

感知任務由兩部分構成，

一個是回憶任務，包括事實回憶（比如脖子上挂了個相機的人，在超市拿起的乳制品）和序列回憶（比如那個人在超市稱完西紅柿過後做了什麼），以及對時間距離的判斷（比如吃了多久的披薩才扔掉盒子）。

還有一個是跟蹤任務，主要用來識别脖子上挂了個相機的人在特定場景（比如超市、藥店）中互動的獨特個體。

接下來是視覺推理任務，分為空間推理和時間推理。

空間推理負責判斷物體之間的空間關系、空間接近度（如微波爐與冰箱或水槽相比是否更近）以及空間布局（如選擇正确描繪脖子上挂相機的人的公寓的布局圖）。

時間推理則包括對活動持續時間的比較、事件發生頻率的判斷、活動的先決條件、預測（如洗完衣服後最可能做的活動）、因果關系（如第二次離開車庫的原因）以及反事實推理（如用烤箱做土豆泥會怎樣）。

導航任務包含了房間到房間的導航、對象檢索導航。

以上每個任務有精心設計的問題原型，以确保正确回答問題需要對長視頻中的多個時間片段進行信息識别和綜合，從而有效測試模型的長期理解能力。

與此同時，研究人員通過 pipeline 來生成了 HourVideo 數據集。

第一步，視頻篩選。

團隊從 Ego4D 數據集中手動審核 1470 個 20 到 120 分鍾的視頻，讓 5 位人類專家選擇了其中 500 個視頻，

至于為啥要從 Ego4D 中選呢，一來是其以自我為中心的視角與 autonomous agents 和助手的典型視覺輸入非常一致；二來是它具有廣泛的視覺叙述，有助于創建多樣化的題；三來 Ego4D 的訪問許可非常友好。

第二步，候選 MCQ 生成。

這需要在長視頻中跨多個時間片段，進行信息分析和合成。

具體來說，研究人員以 20 分鍾為間隔分割了視頻，提取信息轉化為結構化格式供大模型處理。最終一共開發了 25 個特定任務的 prompts。

第三步，LLM 優化與人工反饋。

在這個階段，團隊實現了一個人工反饋系統，7 名經驗豐富的人員人工評估每個問題的有效性、答案準确性、錯誤選項合理性。最終收集了 400 多個小時的人工反饋，然後設計 prompt，自動優化 MCQ ₂得到 MCQ ₃。

第四步，盲選。

這一階段的目标是消除可以通過大模型先驗知識的問題，或者消除那些可以在不用視頻中任何信息就可以回答的問題。

團隊用兩個獨立的大模型—— GPT-4-turbo 和 GPT-4，對 MCQ ₃進行盲篩，确保剩餘 MCQ ₄高質量且專門測試長視頻語言理解。

第五步也是最後一步，專家優化。

這一步是用來提升 MCQ ₄質量，将寬泛問題精确化，經此階段得到高質量 MCQ ₅。

4 個專家幹的事 be like，把 " 挂着相機的人把鑰匙放在哪裡了？" 精确成 " 挂着相機的人購物回家後，把自行車鑰匙放在哪裡了？"

如上 pipeline 中，研究圖納隊使用了 GPT-4 來遵循復雜的多步驟指令，同時還使用了 CoT 提示策略。

此外，pipeline 中涉及大模型的所有階段的問題被設為 0.1。

據統計，HourVideo 涵蓋 77 種日常生活場景，包含 500 個 Ego4D 視頻，視頻時長共 381 個小時、平均時長 45.7 分鍾，其中 113 個視頻時長超過 1 小時。

每個視頻有約 26 個高質量五選一題，共計 12976 個問題。

除因果、反事實和導航任務外，問題在任務套件中均勻分布。

最好表現仍遠低于人類專家水平

在實驗評估方面，HourVideo 采用五選多任務問答（MCQ）任務，以準确率作為評估指标，分别報告每個任務以及整個數據集的準确率。

由于防止信息洩露是評估長視頻中的 MCQ 時的一個重要挑戰——理想情況下，每個 MCQ 應獨立評估，但這種方法計算成本巨高，且十分耗時。

因此，實際評估中按任務或子任務對問題進行分批評估，對于預測任務，提供精确的時間戳以便對視頻進行有針對性的剪輯，從而平衡計算成本和評估準确性。

研究團隊比較了不同的多模态模型在零鏡頭設定下理解長視頻的性能。

主要評估了三類模型，所有這些模型都在一個通用函數下運行：

盲 LLM：

指是指在評估過程中，不考慮視頻内容，僅依靠自身預先訓練的知識來回答問題的大型語言模型。

實驗中以 GPT-4 為代表。它的存在可以揭示模型在多大程度上依賴于其預訓練知識，而不是對視頻中實際視覺信息的理解。

蘇格拉底模型：

對于大多數當前的多模态模型，直接處理非常長的視頻存在困難。

因此，采用 Socratic 模型方法，将視頻（總時長為 t 分鍾）分割成 1 分鍾的間隔，每個間隔獨立加字幕，然後将這些字幕聚合形成一個全面的基于語言的視頻表示，并與通用任務無關的提示一起作為輸入進行長視頻問答。

實驗中分别使用 GPT-4 和 LLaVA- NEXT-34-DPO 為視頻字幕生成器，并最終使用 GPT-4 進行實際問題回答。

原生多模态模型：

像 Gemini 1.5 Pro 這樣的原生多模态模型，在多模态數據（包括音頻、視頻、影像和文本）上聯合訓練，能夠處理非常長的上下文長度 *（（2M +），适合直接對 HourVideo 進行端到端評估。

為了與模型性能進行對比，實驗人員從基準數據集中選取了 14 個視頻，涵蓋 >18 種場景，包括手工制作 / 繪畫、烹饪、建築 / 裝修、園藝、清潔 / 洗衣和庭院工作等。

然後邀請了3 位人類專家，對上述總時長 11.2 小時的視頻内容進行進行評估，共涉及 213 個 MCQ。

為确保評估的公正性，參與評估的人類專家未參與過這些視頻的早期注釋工作。

最終，人類專家在評估中的準确率達到了 85.0% 。

而盲 LLM 的準确率為 19.6%，Socratic 模型準确率略高，原生多模态模型準确率最高，達到了 37.3%，仍然遠低于人類專家水平。

此外，獨立評估每個 MCQ 與按任務級别評估相比，性能下降 2.1%，但成本增加 3 倍以上，證明了任務級評估方法的效率和有效性。

最後，團隊表示未來計劃擴展基準測試，包括更多樣化的視頻來源（如體育和 YouTube 視頻），納入音頻模态支持，并探索其他感官模态。

同時強調在開發模型時需考慮隐私、倫理等問題。

團隊成員

HourVideo 項目來自斯坦福李飛飛和吳佳俊團隊。

論文共同一作是 Keshigeyan Chandrasegaran 和 Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大學計算機科學博士二年級學生，從事計算機視覺和機器學習研究，導師是李飛飛和斯坦福視覺與學習實驗室（SVL）聯合主任胡安 · 卡洛斯 · 尼貝萊斯。

共同一作 Agrim Gupta是斯坦福大學計算機科學專業的博士生，2019 年秋季入學，同樣是李飛飛的學生。

此前，他曾在微軟、DeepMind，有 Meta 的全職經歷，也在 Google 做過兼職。2018 年時，他就跟随李飛飛一同在 CVPR 上發表了論文。

目前，Agrim 的 Google Scholar 論文被引用量接近 6400 次。

李飛飛是大家熟悉的 AI 教母，AI 領網域内最具影響力的女性和華人之一。

她 33 歲成為斯坦福計算機系終身教授，44 歲成為美國國家工程院院士，現任斯坦福以人為本人工智能研究院（HAI）院長。

計算機視覺領網域标杆成果 ImageNet 亦是由她一手推動。

此前，李飛飛也曾短暫進入工業界，出任谷歌副總裁即谷歌雲 AI 首席科學家。她一手推動了谷歌 AI 中國中心正式成立，這是 Google 在亞洲設立的第一個 AI 研究中心。并帶領谷歌雲推出了一系列有影響力的產品，包括 AutoML、Contact Center AI、Dialogflow Enterprise 等。

今年，李飛飛宣布創辦空間智能公司 World Labs，公司成立不到 4 個月時間，估值突破 10 億美元。

所謂空間智能，即 " 視覺化為洞察；看見成為理解；理解導致行動 "。

吳佳俊，現任斯坦福大學助理教授，隸屬于斯坦福視覺與學習實驗室（SVL）和斯坦福人工智能實驗室（SAIL）。

他在麻省理工學院完成博士學位，本科畢業于清華大學姚班，曾被譽為 " 清華十大學神 " 之一。

同時，他也是李飛飛創業公司 World Labs 的顧問。

參考鏈接：

[ 1 ] https://arxiv.org/abs/2411.04998v1

[ 2 ] https://www.worldlabs.ai/team

[ 3 ] https://keshik6.github.io/