何恺明劉壯新作：消除數據集偏差的十年之戰 - 大酷樂

今天小編分享的科學經驗：何恺明劉壯新作：消除數據集偏差的十年之戰，歡迎閲讀。

MIT 新晉副教授何恺明，新作新鮮出爐：

瞄準一個橫亘在 AI 發展之路上十年之久的問題：數據集偏差。

該研究為何恺明在 Meta 期間與劉壯合作完成，他們在論文中指出：

盡管過去十多年裏業界為構建更大、更多樣化、更全面、偏差更小的數據集做了很多努力，但現代神經網絡似乎越來越善于 " 識破 " 并利用這些數據集中潛藏的偏差。

這不禁讓人懷疑：我們在消除數據集偏差的戰鬥中，真的取得了勝利嗎？

數據集偏差之戰，在 2011 年由知名學者 Antonio Torralba 和 Alyosha Efros 提出——

Alyosha Efros 正是 Sora 兩位一作博士小哥（Tim Brooks 和 William Peebles）的博士導師，而 Antonio Torralba 也在本科期間指導過 Peebles。

當時他們發現，機器學習模型很容易 " 過拟合 " 到特定的數據集上，導致在其他數據集上表現不佳。

十多年過去了，盡管我們有了更大、更多樣化的數據集，如 ImageNet、YFCC100M、CC12M 等，但這個問題似乎并沒有得到根本解決。

反而，随着神經網絡變得越來越強大，它們 " 挖掘 " 和利用數據集偏差的能力也越來越強了！

為了分析這個問題，何恺明團隊設計了一個虛構的 " 數據集分類 " 任務。

聽名字你可能就猜到了：給定一張影像，模型需要判斷它來自哪個數據集。通過看模型在這個任務上的表現，就可以了解它們捕捉數據集偏差的能力。

現代 AI 輕松識破不同數據集

在實驗中團隊發現，各種現代神經網絡架構，如 AlexNet、VGG、ResNet、ViT 等，在數據集分類任務上表現出驚人的一致性：它們幾乎都能以超過 80% 的準确率區分不同數據集的影像！

更令人吃驚的是，這個發現在各種不同的條件下都非常穩健：

不管是不同的數據集組合、不同的模型架構、不同的模型尺寸、不同的訓練數據量，還是不同的數據增強方法，神經網絡始終能輕松 " 一眼識破 " 影像的數據集來源。

那麼，神經網絡是如何做到這一點的呢？是靠單純的記憶，還是學到了一些更普适的規律？

為了揭開謎底，團隊做了一系列對比實驗。他們發現，如果把不同的數據集随機混在一起，神經網絡就很難再區分它們了（準确率下降到了 33%）。這説明，神經網絡并不是在單純地記憶每一張影像，而是真的學到了一些數據集特有的模式。

更有趣的是，即使在自監督學習的設定下，神經網絡也展現出了驚人的 " 數據集辨識力 "。在這種設定下，模型在訓練時并沒有用到任何數據集的标籤信息，但當在這些自監督學習到的特征上訓練一個簡單的線性分類器時，它依然能以超過 70% 的準确率區分不同的數據集！

通過這一系列的實驗，何恺明、劉壯等人的研究給我們敲響了警鍾：盡管這十年我們一直在努力構建更大、更多樣化的數據集，但數據集偏差這個問題似乎并沒有得到根本解決。相反，現代神經網絡越來越善于利用這些偏差來獲得高準确率，但這可能并不代表它們真正學到了魯棒、普适的視覺概念。

論文的最後，作者呼籲整個 AI 社區重新審視數據集偏差這個問題，并重新思考如何在算法和數據兩個層面上來應對這一挑戰。

CVPR 最佳論文作者的通力合作

本文是何恺明在 Meta 期間，與 Meta 研究科學家劉壯合作完成。

現在，何恺明已經正式在 MIT 上崗，擔任電氣工程與計算機科學系的助理教授。，在 youtube 上已經有 2.9 萬的播放量。

和何恺明一樣，劉壯本科畢業自清華，并且也是 CVPR 最佳論文獎得主——他是 CVPR2017 最佳論文 DenseNet 的第一作者。

2017 年，劉壯從清華姚班畢業，進入加州大學伯克利分校攻讀博士學位，師從 Trevor Darrell，是賈揚清的同門師弟。

博士畢業後，劉壯進入 Meta AI Research 工作。在此之前，他已經在 Meta 實習了一年多時間，期間和謝賽寧合作，發表了 ConvNeXt。

論文地址：

https://arxiv.org/abs/2403.08632

參考鏈接：

https://twitter.com/liuzhuang1234/status/1768096508082008289

熱門排行

全新概念“反無利器”瑞典北歐防空公司Kreu 郟君昊 | 2025-04-03
雷軍言論引争議，小米SU7智駕技術真的成熟嗎？集玲琳 | 2025-04-03
國共唯一一次活塞機格鬥，拉-11對戰F-47N，蔣軍繁綺文 | 2025-04-03
軍貿合作的不易，需要正确面對！衛青柏 | 2025-04-03
骁龍8s發布！首發新機，款款炸裂！繁綺文 | 2025-04-03
兩萬顆衞星七成滞留太空，太空垃圾威脅關鍵軌習又夏 | 2025-04-03
章若楠穿抹胸裙青春靈動謝飛揚 | 2025-04-03
歐盟委員會主席馮德萊恩：已敲定對美鋼鐵關税繁綺文 | 2025-04-03
《浪姐6》：3位專業歌手，愣是唱不過一個演戲的幸聽楓 | 2025-04-03
這個文旅巨頭3年虧損超260億元承載了幾代幸聽楓 | 2025-04-03
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02