大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

何恺明劉壯新作:消除數據集偏差的十年之戰

2024-03-18 简体 HK SG TW

今天小編分享的科學經驗:何恺明劉壯新作:消除數據集偏差的十年之戰,歡迎閱讀。

MIT 新晉副教授何恺明,新作新鮮出爐:

瞄準一個橫亘在 AI 發展之路上十年之久的問題:數據集偏差。

該研究為何恺明在 Meta 期間與劉壯合作完成,他們在論文中指出:

盡管過去十多年裡業界為構建更大、更多樣化、更全面、偏差更小的數據集做了很多努力,但現代神經網絡似乎越來越善于 " 識破 " 并利用這些數據集中潛藏的偏差。

這不禁讓人懷疑:我們在消除數據集偏差的戰鬥中,真的取得了勝利嗎?

數據集偏差之戰,在 2011 年由知名學者 Antonio Torralba 和 Alyosha Efros 提出——

Alyosha Efros 正是 Sora 兩位一作博士小哥(Tim Brooks 和 William Peebles)的博士導師,而 Antonio Torralba 也在本科期間指導過 Peebles。

當時他們發現,機器學習模型很容易 " 過拟合 " 到特定的數據集上,導致在其他數據集上表現不佳。

十多年過去了,盡管我們有了更大、更多樣化的數據集,如 ImageNet、YFCC100M、CC12M 等,但這個問題似乎并沒有得到根本解決。

反而,随着神經網絡變得越來越強大,它們 " 挖掘 " 和利用數據集偏差的能力也越來越強了!

為了分析這個問題,何恺明團隊設計了一個虛構的 " 數據集分類 " 任務。

聽名字你可能就猜到了:給定一張影像,模型需要判斷它來自哪個數據集。通過看模型在這個任務上的表現,就可以了解它們捕捉數據集偏差的能力。

現代 AI 輕松識破不同數據集

在實驗中團隊發現,各種現代神經網絡架構,如 AlexNet、VGG、ResNet、ViT 等,在數據集分類任務上表現出驚人的一致性:它們幾乎都能以超過 80% 的準确率區分不同數據集的影像!

更令人吃驚的是,這個發現在各種不同的條件下都非常穩健:

不管是不同的數據集組合、不同的模型架構、不同的模型尺寸、不同的訓練數據量,還是不同的數據增強方法,神經網絡始終能輕松 " 一眼識破 " 影像的數據集來源。

那麼,神經網絡是如何做到這一點的呢?是靠單純的記憶,還是學到了一些更普适的規律?

為了揭開謎底,團隊做了一系列對比實驗。他們發現,如果把不同的數據集随機混在一起,神經網絡就很難再區分它們了(準确率下降到了 33%)。這說明,神經網絡并不是在單純地記憶每一張影像,而是真的學到了一些數據集特有的模式。

更有趣的是,即使在自監督學習的設定下,神經網絡也展現出了驚人的 " 數據集辨識力 "。在這種設定下,模型在訓練時并沒有用到任何數據集的标籤信息,但當在這些自監督學習到的特征上訓練一個簡單的線性分類器時,它依然能以超過 70% 的準确率區分不同的數據集!

通過這一系列的實驗,何恺明、劉壯等人的研究給我們敲響了警鍾:盡管這十年我們一直在努力構建更大、更多樣化的數據集,但數據集偏差這個問題似乎并沒有得到根本解決。相反,現代神經網絡越來越善于利用這些偏差來獲得高準确率,但這可能并不代表它們真正學到了魯棒、普适的視覺概念。

論文的最後,作者呼籲整個 AI 社區重新審視數據集偏差這個問題,并重新思考如何在算法和數據兩個層面上來應對這一挑戰。

CVPR 最佳論文作者的通力合作

本文是何恺明在 Meta 期間,與 Meta 研究科學家劉壯合作完成。

現在,何恺明已經正式在 MIT 上崗,擔任電氣工程與計算機科學系的助理教授。,在 youtube 上已經有 2.9 萬的播放量。

和何恺明一樣,劉壯本科畢業自清華,并且也是 CVPR 最佳論文獎得主——他是 CVPR2017 最佳論文 DenseNet 的第一作者。

2017 年,劉壯從清華姚班畢業,進入加州大學伯克利分校攻讀博士學位,師從 Trevor Darrell,是賈揚清的同門師弟。

博士畢業後,劉壯進入 Meta AI Research 工作。在此之前,他已經在 Meta 實習了一年多時間,期間和謝賽寧合作,發表了 ConvNeXt。

論文地址:

https://arxiv.org/abs/2403.08632

參考鏈接:

https://twitter.com/liuzhuang1234/status/1768096508082008289

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們