大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

空間智能版ImageNet來了!李飛飛吳佳俊團隊出品

2024-11-10 简体 HK SG TW

今天小編分享的科技經驗:空間智能版ImageNet來了!李飛飛吳佳俊團隊出品,歡迎閱讀。

空間智能版 ImageNet 來了,來自斯坦福李飛飛吳佳俊團隊!

HourVideo,一個用于評估多模态模型對長達一小時視頻理解能力的基準數據集,包含多種任務。

通過與現有模型對比,揭示當前模型在長視頻理解上與人類水平的差距。

2009 年,李飛飛團隊在 CVPR 上首次對外展示了影像識别數據集ImageNet,它的出現極大推動計算機視覺算法的發展——懂 CV 的都是知道這裡面的門道有多深。

現在,随着多模态迅猛發展,團隊認為 " 現有的視頻基準測試,大多集中在特定領網域或短視頻上 ",并且 " 這些數據集的平均視頻長度較短,限制了對長視頻理解能力的全面評估 "。

于是,空間智能版 ImageNet 應運而生。

HourVideo 包含 500 個來自 Ego4D 數據集的第一人稱視角視頻,時長在 20 到 120 分鍾之間,涉及 77 種日常活動。

評測結果表示,人類專家水平顯著優于目前長上下文多模态模型中最厲害的 Gemini Pro 1.5(85.0% 對 37.3%)。

在多模态能力上,大模型們還任重而道遠。

HourVideo 如何煉成?

之所以提出 HourVideo,是因為研究人員發現目前長視頻理解越來越重要,而現有評估 benchmark 存在不足。

多模态越來越卷,人們期待 AI 被賦予 autonomous agents 的類似能力;而從人類角度來看,由于人類具備處理長時間視覺處理的能力,因此能在現實視覺中感知、計劃和行動。

因此,長視頻理解對實現這一目标至關重要。

而當前的多模态評估 benchmark,主要還是集中在評測單張影像或短視頻片段(幾秒到三分鍾),對長視頻理解的探索還有待開發。

不可否認的是,AI 評估長視頻理解面臨諸多挑戰,譬如要設計任務、避免通過先驗知識或簡短片斷回答等。

因此,團隊提出HourVideo。

這是一個為長視頻理解而設計的基準數據集。

為了設計出需要長期理解的任務,團隊首先提出了一個新的任務對應套件,包含總結、感知(回憶、跟蹤)、視覺推理(空間、時間、預測、因果、反事實)和導航(房間到房間、對象檢索)任務,共 18 個子任務。

其中,總結任務要求模型對視頻中的關鍵事件、主要互動等進行概括性描述,例如總結出脖子上挂了個相機的人在超市中有什麼關鍵互動行為。

感知任務由兩部分構成,

一個是回憶任務,包括事實回憶(比如脖子上挂了個相機的人,在超市拿起的乳制品)和序列回憶(比如那個人在超市稱完西紅柿過後做了什麼),以及對時間距離的判斷(比如吃了多久的披薩才扔掉盒子)。

還有一個是跟蹤任務,主要用來識别脖子上挂了個相機的人在特定場景(比如超市、藥店)中互動的獨特個體。

接下來是視覺推理任務,分為空間推理和時間推理。

空間推理負責判斷物體之間的空間關系、空間接近度(如微波爐與冰箱或水槽相比是否更近)以及空間布局(如選擇正确描繪脖子上挂相機的人的公寓的布局圖)。

時間推理則包括對活動持續時間的比較、事件發生頻率的判斷、活動的先決條件、預測(如洗完衣服後最可能做的活動)、因果關系(如第二次離開車庫的原因)以及反事實推理(如用烤箱做土豆泥會怎樣)。

導航任務包含了房間到房間的導航、對象檢索導航。

以上每個任務有精心設計的問題原型,以确保正确回答問題需要對長視頻中的多個時間片段進行信息識别和綜合,從而有效測試模型的長期理解能力。

與此同時,研究人員通過 pipeline 來生成了 HourVideo 數據集。

第一步,視頻篩選。

團隊從 Ego4D 數據集中手動審核 1470 個 20 到 120 分鍾的視頻,讓 5 位人類專家選擇了其中 500 個視頻,

至于為啥要從 Ego4D 中選呢,一來是其以自我為中心的視角與 autonomous agents 和助手的典型視覺輸入非常一致;二來是它具有廣泛的視覺叙述,有助于創建多樣化的題;三來 Ego4D 的訪問許可非常友好。

第二步,候選 MCQ 生成。

這需要在長視頻中跨多個時間片段,進行信息分析和合成。

具體來說,研究人員以 20 分鍾為間隔分割了視頻,提取信息轉化為結構化格式供大模型處理。最終一共開發了 25 個特定任務的 prompts。

第三步,LLM 優化與人工反饋。

在這個階段,團隊實現了一個人工反饋系統,7 名經驗豐富的人員人工評估每個問題的有效性、答案準确性、錯誤選項合理性。最終收集了 400 多個小時的人工反饋,然後設計 prompt,自動優化 MCQ ₂得到 MCQ ₃。

第四步,盲選。

這一階段的目标是消除可以通過大模型先驗知識的問題,或者消除那些可以在不用視頻中任何信息就可以回答的問題。

團隊用兩個獨立的大模型—— GPT-4-turbo 和 GPT-4,對 MCQ ₃進行盲篩,确保剩餘 MCQ ₄高質量且專門測試長視頻語言理解。

第五步也是最後一步,專家優化。

這一步是用來提升 MCQ ₄質量,将寬泛問題精确化,經此階段得到高質量 MCQ ₅。

4 個專家幹的事 be like,把 " 挂着相機的人把鑰匙放在哪裡了?" 精确成 " 挂着相機的人購物回家後,把自行車鑰匙放在哪裡了?"

如上 pipeline 中,研究圖納隊使用了 GPT-4 來遵循復雜的多步驟指令,同時還使用了 CoT 提示策略。

此外,pipeline 中涉及大模型的所有階段的問題被設為 0.1。

據統計,HourVideo 涵蓋 77 種日常生活場景,包含 500 個 Ego4D 視頻,視頻時長共 381 個小時、平均時長 45.7 分鍾,其中 113 個視頻時長超過 1 小時。

每個視頻有約 26 個高質量五選一題,共計 12976 個問題。

除因果、反事實和導航任務外,問題在任務套件中均勻分布。

最好表現仍遠低于人類專家水平

在實驗評估方面,HourVideo 采用五選多任務問答(MCQ)  任務,以準确率作為評估指标,分别報告每個任務以及整個數據集的準确率。

由于防止信息洩露是評估長視頻中的 MCQ 時的一個重要挑戰——理想情況下,每個 MCQ 應獨立評估,但這種方法計算成本巨高,且十分耗時。

因此,實際評估中按任務或子任務對問題進行分批評估,對于預測任務,提供精确的時間戳以便對視頻進行有針對性的剪輯,從而平衡計算成本和評估準确性。

研究團隊比較了不同的多模态模型在零鏡頭設定下理解長視頻的性能。

主要評估了三類模型,所有這些模型都在一個通用函數下運行:

盲 LLM:

指是指在評估過程中,不考慮視頻内容,僅依靠自身預先訓練的知識來回答問題的大型語言模型。

實驗中以 GPT-4 為代表。它的存在可以揭示模型在多大程度上依賴于其預訓練知識,而不是對視頻中實際視覺信息的理解。

蘇格拉底模型:

對于大多數當前的多模态模型,直接處理非常長的視頻存在困難。

因此,采用 Socratic 模型方法,将視頻(總時長為 t 分鍾)分割成 1 分鍾的間隔,每個間隔獨立加字幕,然後将這些字幕聚合形成一個全面的基于語言的視頻表示,并與通用任務無關的提示一起作為輸入進行長視頻問答。

實驗中分别使用 GPT-4 和 LLaVA- NEXT-34-DPO 為視頻字幕生成器,并最終使用 GPT-4 進行實際問題回答。

原生多模态模型:

像 Gemini 1.5 Pro 這樣的原生多模态模型,在多模态數據(包括音頻、視頻、影像和文本)上聯合訓練,能夠處理非常長的上下文長度 *((2M +),适合直接對 HourVideo 進行端到端評估。

為了與模型性能進行對比,實驗人員從基準數據集中選取了 14 個視頻,涵蓋 >18 種場景,包括手工制作 / 繪畫、烹饪、建築 / 裝修、園藝、清潔 / 洗衣和庭院工作等。

然後邀請了3 位人類專家,對上述總時長 11.2 小時的視頻内容進行進行評估,共涉及 213 個 MCQ。

為确保評估的公正性,參與評估的人類專家未參與過這些視頻的早期注釋工作。

最終,人類專家在評估中的準确率達到了 85.0% 。

而盲 LLM 的準确率為 19.6%,Socratic 模型準确率略高,原生多模态模型準确率最高,達到了 37.3%,仍然遠低于人類專家水平。

此外,獨立評估每個 MCQ 與按任務級别評估相比,性能下降 2.1%,但成本增加 3 倍以上,證明了任務級評估方法的效率和有效性。

最後,團隊表示未來計劃擴展基準測試,包括更多樣化的視頻來源(如體育和 YouTube 視頻),納入音頻模态支持,并探索其他感官模态。

同時強調在開發模型時需考慮隐私、倫理等問題。

團隊成員

HourVideo 項目來自斯坦福李飛飛和吳佳俊團隊。

論文共同一作是 Keshigeyan Chandrasegaran 和 Agrim Gupta。

Keshigeyan Chandrasegaran是斯坦福大學計算機科學博士二年級學生,從事計算機視覺和機器學習研究,導師是李飛飛和斯坦福視覺與學習實驗室(SVL)聯合主任胡安 · 卡洛斯 · 尼貝萊斯。

共同一作 Agrim Gupta是斯坦福大學計算機科學專業的博士生,2019 年秋季入學,同樣是李飛飛的學生。

此前,他曾在微軟、DeepMind,有 Meta 的全職經歷,也在 Google 做過兼職。2018 年時,他就跟随李飛飛一同在 CVPR 上發表了論文。

目前,Agrim 的 Google Scholar 論文被引用量接近 6400 次。

李飛飛是大家熟悉的 AI 教母,AI 領網域内最具影響力的女性和華人之一。

她 33 歲成為斯坦福計算機系終身教授,44 歲成為美國國家工程院院士,現任斯坦福以人為本人工智能研究院(HAI)院長。

計算機視覺領網域标杆成果 ImageNet 亦是由她一手推動。

此前,李飛飛也曾短暫進入工業界,出任谷歌副總裁即谷歌雲 AI 首席科學家。她一手推動了谷歌 AI 中國中心正式成立,這是 Google 在亞洲設立的第一個 AI 研究中心。并帶領谷歌雲推出了一系列有影響力的產品,包括 AutoML、Contact Center AI、Dialogflow Enterprise 等。

今年,李飛飛宣布創辦空間智能公司 World Labs,公司成立不到 4 個月時間,估值突破 10 億美元。

所謂空間智能,即 " 視覺化為洞察;看見成為理解;理解導致行動 "。

吳佳俊,現任斯坦福大學助理教授,隸屬于斯坦福視覺與學習實驗室(SVL)和斯坦福人工智能實驗室(SAIL)。

他在麻省理工學院完成博士學位,本科畢業于清華大學姚班,曾被譽為 " 清華十大學神 " 之一。

同時,他也是李飛飛創業公司 World Labs 的顧問。

參考鏈接:

[ 1 ] https://arxiv.org/abs/2411.04998v1

[ 2 ] https://www.worldlabs.ai/team

[ 3 ] https://keshik6.github.io/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們