從 ImageNet 到 AlexNet，李飛飛萬字自述人工智能誕生的關鍵進程

今天小編分享的教育經驗：從 ImageNet 到 AlexNet，李飛飛萬字自述人工智能誕生的關鍵進程，歡迎閱讀。

作者| 李飛飛

來源 | 管理智慧

咨詢合作| 13699120588

節選自李飛飛自傳《我看見的世界》，中信出版集團文章。僅代表作者本人觀點，圖片來源于pixabay

要怎麼介紹李飛飛？

AI 教母、《時代》百大 AI 影響力人物、福布斯中國·全球華人精英 Top100，

美國國家工程院、國家醫學院、藝術與科學院三院院士，

現代人工智能的關鍵催化劑 ImageNet 創建者，

……

或者我們可以用另一位 AI 領網域的重要科學家、圖靈獎得主傑弗裡·辛頓（Hinton）的話來介紹，「李飛飛是第一位真正理解大數據力量的計算機視覺研究人員，她的工作打開了深度學習的閘門，推動了人工智能技術的問世。」

基于 WordNet，她誕生了 ImageNet 算法的靈感，然後由此又催生了 Hinton 和 Ilya 的 AlexNet，極大地推動了計算機視覺的識别能力的進步，為機器學習領網域過去十年的突飛猛進提供了堅實的基礎。

或許可以這麼說，「沒有 ImageNet，就沒有現在的深度學習革命」。

找到北極星：

讓 AI 通過理解物體來理解世界

當我在加州理工學院的第二學年即将結束時，我已經閱讀了大量文獻，參加了許多研讨會和專題會。随着我們的實驗結果的發表，我也看到了足夠的第一手資料，因而認識到了一個重要的事實：視知覺依賴于分類。我們的大腦會自然而然地将我們所看到的細節歸類為更廣泛的概念，如物體、人物、地點和事件等。例如，在現實生活中，我們看到的不僅僅是簡單的綠色和藍色的圖案，而是會看到在天空映襯下的一棵樹。

視覺在更高、更有意義的層面上發揮作用，用知識武裝我們的頭腦——我們可以想象樹葉随微風搖曳的樣子或夾在指間的感覺，我們也可以立刻估計出一根樹枝的質地和重量，這兩者都與高懸在數英裡高空的不可觸摸的大氣層和彩色光線截然不同。

分類的能力賦予了我們難以估量的力量。視覺沒有把我們埋沒在光線、顏色和形狀的無數細節中，而是把我們的世界變成了可以用語言描述的離散概念。有用的觀念像地圖一樣排列在我們周圍，把復雜的現實簡化成我們可以一望便知、在瞬間做出反應的世界。我們的遠古祖先就是這樣在純粹的混沌環境中生存下來的，世世代代的藝術家們就是這樣從日常生活中提煉出美感和精華的，即使在今天，我們也是這樣在這個日益復雜的世界中找到自己的方向的。

我們的視覺系統就像是某個神秘巨人以極大的耐心精雕細琢出的發條裝置，而我們的研究工作像是其逆向工程。雖然發條裝置的小齒輪在我們面前嘀嗒作響，但其神秘面紗仍然未被揭開，距離完全理解視覺原理還有很長一段路要走，但我們已經窺得一些非凡的東西。生物進化是宇宙中唯一能夠從零開始創造真正智能的力量，我覺得我們正在復原其線路圖，或者至少是其中的一些片段。

這也改變了我對自己所從事的計算機視覺領網域的看法。雖然計算機視覺領網域的靈感創意層出不窮，但它們都分散在各種各樣的研究項目中，整個領網域缺乏指向同一目标的共同協作，類似于那股千年來耐心地塑造了我們自己思維發展的專注力量。我不禁思考，如果這種情況改變了，如果研究人員能夠聯合起來，共同理解并重新創造了人類認知的核心理念，世界将會變成什麼樣子？

我很難想象各方協同可能會帶來什麼發現。人工智能的未來具有無限的想象空間，但我開始認識到，這并非首要問題。我越來越确信，解開人工智能之謎的理想第一步，就是迎接一個特殊的挑戰：通過理解各種物體來理解視覺世界。畢竟，人類就是這樣看到世界的。我現在相信，這同樣适用于我們的機器。

我找到了屬于自己的北極星。

單樣本學習引入機器：

數據的作用初顯

螢幕上出現了一張噴氣式飛機的影像，這次算法的任務是在照片上找到飛機。這是連蹒跚學步的兒童都能應對的挑戰，但在 2003 年，機器只有在吸收了大量示例材料後才能應對。即便如此，它們成功的概率也很低。

飛機被成功識别出來了。

我們将這種技術稱為「單樣本學習」（one-shot learning）。這種技術與當時主流的影像識别方法背道而馳，但我們是從一個眾所周知的能力中獲得了啟發。作為人類，我們天生就有一種神奇的本領，那就是可以僅憑對陌生事物的一瞥，再次遇到時就能認出來，不管是一樣新的樂器、一種我們從未見過的動物，還是一位新當選的政治家。我們可以對這種能力做出多種解釋，但其中最簡單、最有力的解釋是，即使面對全新的事物，無論多麼新奇，我們也會借助一生的經驗來加以理解。我們所看到的幾乎一切都深深地融入了過往的經驗——輪廓、光影、紋理和圖案等熟悉的細節，以至我們很難想象能真正孤立地看到任何東西。

我們的技術将這一概念引入了機器，而且看起來效果不錯。如果說實驗結果是一個驚喜，那麼我們的論文所受到的歡迎程度則是超乎想象的。這是一次突破性的成功，我們的論文不僅被在法國尼斯舉辦的國際計算機視覺會議（International Conference on Computer Vision，ICCV）所接受，而且為我們赢得了為數不多的口頭報告的機會。

然而，在我的演講結束後，大家展開了熱烈的讨論。我突然意識到一件微妙的事情——我被問到的每個問題都與算法本身有關：你是如何建立貝葉斯方程來估計後驗概率的？你是如何估計影像的先驗分布的？你提到使用最近提出的變分推理算法來優化模型參數，能詳細說說嗎？在未來的改進中，你打算如何擴展算法？算法在不同情況下可能會有什麼表現？

我們選擇的機器學習算法的數學核心是「貝葉斯網絡」（Bayesian network），這是一種概率技術。接二連三的問題都是有關這種技術的，但沒有一個人問及我們訓練算法時所用的數據。數據被公然視為一種惰性商品，只在算法需要時才重要，雖然這種觀點并不稀奇，但我開始意識到，有一些重要的東西一直都被低估了。

我們算法的決定性特征是能夠從只看過一次的影像中學習新的事物類别，而這一特征對數據的依賴極大。究其根本，是因為我們的算法已經見識到林林總總的各種事物，獲得了感知體驗，才可以在面對新事物時展現出卓越的識别能力。

事實上，我越想越覺得奇怪。數據具有微妙而神奇的力量，為什麼這個話題從未得到任何關注呢？我們的實驗材料極少，只不過是從幾個随意選擇的類别中拿出幾百張圖片，卻獲得了意料之外的結果。這不禁讓人思考：如果少量數據就可以實現如此強大的能力，那麼更多的數據又将帶來什麼呢？這個問題越想越覺得具有啟發性。

如果數據量大得多呢？

擴大數據量第一步：

從谷歌扒圖片

我越想越覺得我們的研究具有發展潛力——我們正在嘗試以數據的形式來復制兒童認知的形成階段。我想象着孩子玩東西的方式，他們伸出手去抓、戳、摸索、撥弄。他們玩躲貓貓遊戲，了解到即使物體被暫時隐藏起來，它們也依然存在。這些都是我們的算法非常缺乏的本能。

「你說得對，但我們還是沒有确切的數字。」鄧嘉*邊想邊說，「到目前為止，我們一直在用無窮大乘以無窮大。到底該怎麼辦呢？」

*從項目成立之初，鄧嘉就是李飛飛團隊的成員，在 ImageNet 發布後一年左右，他在學界嶄露頭角，發表了名為《對超過 10000 個影像進行分類能告訴我們什麼》的論文，總結了 ImageNet 出現後影像識别領網域發生的根本性變化。

我回答道：「我要說的就是這個，再多的影像也不夠。不管我們想到一個多大的數字，我們都應該想到它還可以更大，然後還要更大。反正怎麼着都是在猜，那就不如往大裡猜吧。」

于是我們确定了一個目标，為每個物品類别搜集 1000 張不同的照片：1000 張不同的小提琴照片、1000 張不同的德國牧羊犬照片、1000 張不同的抱枕照片，直到涵蓋全部 2.2 萬個類别，也就是一共需要大約 2000 萬張圖片。但即便是這個數字，也只是最終成品數據庫的情況。我們可能需要從數億張照片，甚至 10 億張照片中篩選，才能達到目标。

「就算我們想辦法組織好了圖片，」他補充說，「這些影像本身也沒有任何作用，對吧？它們需要先标注，才能用于模型訓練，而且每一個标籤都必須是準确的。」鄧嘉暫停了一下，好像才感受到自己說的話有多麼重要，「聽上去又是一個浩大的工程。」

「按照目前的速度，預計 ImageNet 的完工時間是……」我用力咽了一下口水。他注意到了。

「沒錯，差不多要 19 年吧。飛飛，我很看好這個項目，真的，只是我不能等那麼久才拿到博士學位。」有道理，鄧嘉。

我想到鄧嘉在加入我的實驗室之前，一直在跟李凱研究各種極其復雜的系統，在工作中遵循效率為先的原則，以實現更高的性能、更低的成本、最短的路徑。作為世界上最重要的微處理器設計師之一的門徒，他肯定能想到辦法提高這些大學生的生產力。

我們的資料庫開始像變魔術一般被圖片填滿。誠然，我們這種廣撒網的方式也撈回了很多垃圾，比如低質量的照片、剪貼畫等，但也積累了大量高清圖片。我們迅速填滿了大量硬碟，現實世界的影像逐漸在圖片中成形，雖然還很粗糙，卻讓我們第一次看到了對整個視覺世界的真實描繪。至少有一段時間是這樣的。

「糟糕。」我聽到鄧嘉在實驗室的另一邊說。

「怎麼了？」

「看上去出了點兒小問題。呃……沒錯，我們被谷歌封禁了。」

「什麼？封禁了嗎？為什麼？」

「顯然是他們限制了單個用戶在特定時間段内可以提交的請求數量。據我所知，大約在 1000 個左右。」「特定時間段是多久？」

「24 小時。午夜開始重置。這算是個好消息。」「好吧，那我們每天多久會達到請求數量的上限？」

「嗯，這就是壞消息了。」鄧嘉拿出日志檔案，心算了一下，「大約 9 分鍾。」

很快，圖片存儲庫的增長停滞了。但我們的問題不止于此。整個流程的上下遊極不平衡，甚至有些可笑。我們搜集的原始圖片呈爆炸式增長，在遭到谷歌屏蔽之前，每天都有數以千計的新圖片添加進來，但其中只有一小部分得到了準确的标注和整理。雖然我們從一開始就知道标注流程将會是一個瓶頸，但随着時間一周周地過去，這一環節給我們造成的負擔還是讓我們感到氣餒。

我們詳細讨論了标注員在識别、分類和标注每張圖片時所遵循的每個步驟，并盡可能使用快捷方式和定制工具來對它們進行簡化。如果一個流程需要點擊三次滑鼠，鄧嘉會想辦法實現只需一次點擊。減少打字次數，縮短滑鼠移動距離，提高所有操作的速度。在我們交談的時候，我不禁開始仔細觀察桌上的物品，默默猜想它們是否屬于我們那 2.2 萬個類别。「餐巾」這一條目自然在列，但我們區分布餐巾和紙餐巾了嗎？那是一把什麼刀？除了「牛排刀」和「黃油刀」，還有多少種刀呢？「切肉刀」，我猜。「面包刀」？也許吧。仔細一想，确實有很多。這些我們都涵蓋了嗎？我在心裡默默記下，打算回到實驗室後再确認。

「對了，飛飛，你知道什麼是動态 IP 嗎？」鄧嘉又拿出一個錦囊妙計。

「可以把動态 IP 看作是我們的機器連接谷歌伺服器的中間環節。我們的實驗室計算機保持不變，但動态 IP 會将我們與不斷變化的中間商連接起來，這樣谷歌就會認為那些搜索請求來自不同的用戶。」

「這樣我們就不會超過限額了？」

「遠遠不會。」

我們重整旗鼓，至少在一定程度上恢復了工作。标注依然是個問題，但看到備選的圖庫規模持續增加，我還是長舒了一口氣。現在，就算是小小的勝利也值得慶祝。

對一年前還在設計微處理器架構的鄧嘉來說，這些都是非常平淡無奇的工程挑戰。盡管如此，我們兩個都知道努力是有意義的。它們可能只是權宜之計，過于簡單，甚至粗糙，但每解決一個問題，我們都離自己的願景更近一步，這個願景就是讓機器看到一個完整的世界；我希望在不久之後，機器甚至可以理解這個世界。

在 MAKERSConference2018 大會上，李飛飛發表關于 AI 與需要更多多樣性的講話

全球眾包，

解決了 ImageNet 的數據标注問題

做 ImageNet 已有一年時間，我感覺我們已經步入正軌。有了标注團隊的工作，還有鄧嘉在不斷努力優化标注流程，我确信我們已經有所突破。我很好奇進展如何，而鄧嘉知道我的想法（他經常能知道我在想什麼）。

「你在想我們多久能完成 ImageNet？我已經重新預估時間了。

「好的，如果我們把所有因素都考慮在内：我們所有的優化和快捷方式，再加上已經标注的圖片，我們已經設法将 19 年的預計時間縮短到……」

我突然失去了勇氣，因為我預感結果會很糟糕。「……大約 18 年。」

絕望激發了一種巴洛克式的創造力——當處境之慘淡變得越來越難以忽視時，我們想出了各種各樣的點子，确實顯得有些慌不擇路。我們甚至想用機器來輔助我們的人工标注員。當然，這裡涉及一些循環論證：如果算法能夠足夠準确地識别物體、幫助我們進行标注，那麼我們壓根兒就不需要 ImageNet 了。然而，我們也想知道如果讓機器扮演輔助角色，是否會帶來一些便利。例如，我們可以讓機器利用我和彼得羅開發的單樣本學習技術，粗略但快速地标注大量影像，這樣人工團隊就可以更多地扮演編輯或校對的角色。這樣做雖然有一定的道理（道理不多，且有待商榷），但我們始終未能找到合适的平衡點。

更重要的是，反對标籤過程自動化的真正原因并不是在技術層面，而是在哲學層面。我們意識到，即使是微妙的算法捷徑，也與 ImageNet 的使命背道而馳。我們的目标是在每幅影像中都嵌入純粹的人類感知，希望在整個影像集上訓練出來的計算機視覺模型也能迸發出類似人類的智慧火花。使用機器可能會削弱這一點。

如果人力是瓶頸，而我們又無法再繼續減少人工參與，那麼我們剩下的唯一選擇似乎就是蠻幹：擴大我們的标注員團隊，把預計完成時間從近 20 年縮至更短的期限。也許只需要增加 10 倍的人手——考慮到已經完成的工作，這樣可能在一年半内就能達到目标。然而，我們的資金根本就不夠。

我幾乎可以看到我的北極星在逐漸暗淡下來，我的道路又陷入了黑暗之中。一個可怕的想法開始在我心頭升起：我承擔的風險比我意識到的更大，而現在回頭已經為時太晚。

「打擾一下，飛飛。」我正在趕去教職工會議的路上，馬上就要遲到了，一個叫孫民的研究生突然出現在我面前。

「昨天我跟鄧嘉在一起，」他繼續說，「他跟我說了你們在項目标注問題上遇到的麻煩。我有一個你倆還沒試過的辦法，真的可以幫你們提高速度。」「你聽說過眾包嗎？」

他解釋說，在線平台可以将任務分配和結果收集過程自動化，有效組織遠程的臨時工作團隊，規模小到個人，大到數百萬人的團隊。「如果你感興趣的話，亞馬遜就在提供這種服務，叫作『土耳其機器人』。」

這個名字很妙，源于 18 世紀的一種會下國際象棋的自動機器「土耳其機器人」。當時，這個機器人在世界各地巡回展出，被視為一個工程奇迹。它棋藝高超，就連國際象棋高手也甘拜下風。但實際上這個裝置純屬騙局：在機器人底座裡就藏着一個人類國際象棋大師，正是這個人在操控機器，讓觀眾既興奮又困惑。

幾個世紀後，新興的眾包實踐基于同樣的理念：真正的智能自動化仍然最适合由人類來完成。亞馬遜土耳其機器人（Amazon Mechanical Turk，AMT）圍繞這個概念建立了一個市場，「請求者」可以發布「人類智能任務」，由貢獻者完成，這些貢獻者被稱為「土耳其人」（Turker），他們可能來自世界上的任何地方。從理論上講，這個模式很合理，似乎可以提供我們想要的一切：既有人工标注圖片帶來的智慧成分，又有與自動化相當的速度與規模。有趣的是，亞馬遜稱之為「人工人工智能」，這個名字相當貼切。

我的北極星開始重新閃耀，我不禁再次感嘆時機的重要性。ImageNet 之所以能夠存在，要歸功于互聯網、數碼相機和搜索引擎等眾多技術的融合。現在，一個一年前還幾乎不存在的平台提供的眾包服務，成為讓我們的項目臻于圓滿的關鍵因素。這件事就是最好的例證，它讓我深刻了解到，任何一個科學家的默認立場都應該是絕對謙卑，他們應該明白，沒有哪個個體的智慧能有意外之力的一半強大。

亞馬遜土耳其機器人改變了一切。它把我們起初的大學生标注員隊伍變成了一個由數十人、數百人、數千人組成的國際團隊。随着我們獲得的支持不斷擴大，鄧嘉給出的預計完成時間急劇縮短，先是 15 年，然後是 10 年、5 年、2 年，最後不到 1 年。這為我們提供了全新的視角來看待預算，徹底颠覆了 ImageNet 的成本效益。曾幾何時，我們的預算只能招到幾個标注員，連一個房間都站不滿，而現在足以聘請一支遍布全球并通過互聯網連接的眾包團隊。

2009 年 6 月，ImageNet 的初始版本終于完成了，這在很大程度上得益于斯坦福大學提供的新研究資金。盡管我們一路上遇到了許多挑戰，但我們最終成功達成了目标：收集了 1500 萬張圖片，涵蓋了 2.2 萬個不同類别。這些圖片篩選自近 10 億張候選圖片，并由來自 167 個國家的 4.8 萬多名全球貢獻者進行了标注。ImageNet 不僅在規模和多樣性上達到了我們多年來夢寐以求的水平，還保持了一致的精确度：每張圖片都經過了手工标注，并在層次結構中進行了組織，經過了三重驗證。

從數量上看，我們已經實現了既定目标，建立起了當時人工智能史上最大的人工編輯數據集。但在這些數字之外，最讓我感動的成就是我們所構建的真實世界本體。這個本體是人類從零開始策劃的，既包含視覺影像，又能傳達邏輯概念，其唯一的目的就是教導機器。

有一次，我們利用 ImageNet 快速訓練了數百個影像分類算法的實例，讓它們識别一組日常事物，然後将所有實例應用在一張照片上。實驗目的并不是簡單地檢測單個物體的存在，而是通過尋找物體組合來诠釋整個場景。例如，如果檢測算法發現了一個人、一艘船、一只槳和一片水網域，它就會将照片作為一個整體歸類為「劃船」。這是一種更深層次的理解，可以說接近于原始的視覺推理。就像我們那個時代的許多實驗一樣，我們使用的算法準确性很不穩定，還有很大的改善空間。畢竟，就連簡單的影像識别也仍處于起步階段。但困難只會進一步激發我們的冒險精神。我們的研究大膽且具有前瞻性，雖然并不完備，但能引發思考，其中很多在概念上也很簡單。但直到 ImageNet 出現，一切才變得切實可行起來。

大賽冠軍誕生：

Ilya 和 Hinton 的 AlexNet

「你知道我最喜歡 Caltech101 哪一點嗎?」亞歷克斯*的話把我拉回了現實，「除了裡面的訓練數據，它還讓我有機會用完全相同的影像，把我的研究結果和你的進行比較，做同類對比。」

*亞歷克斯·伯格，紐約州立大學石溪分校的助理教授，在博士論文中使用了 Caltech 101，對數據集的價值非常認同，也成為 ImageNet 為數不多的支持者之一。

「相當于一個基準。」我回答道。

「沒錯，這樣就很容易衡量進展。還有什麼比這更能激勵研究人員呢? 就像是發起了一個挑戰，就像打賭一樣。」

就像打賭一樣，我喜歡這個說法。

「那麼……如果我們用 ImageNet 做同樣的事呢?」我問道，邊思考邊說，「或者，幹脆我們就用 ImageNet 搞一個完整的競賽怎麼樣?」

「你是說像 PASCAL 那樣的嗎?」PASCAL 視覺對象類别數據集 (通常稱為 PASCALVOC) 是一個歐洲研究團隊匯編的數據集，包含大約 1 萬張圖片，分為 20 個類别。PASCALVOC 與 Caltech101 類似，但有一個重要區别:PASCALVOC 是年度計算機視覺大賽的基礎數據集。該大賽始于 2005 年，每年都有來自世界各地的參賽者提交經過 PASCALVOC 訓練的算法，然後用這些算法去識别一組以前沒有見過的新圖片，最後根據分類的準确度對算法進行排名，錯誤率最低的即為獲勝算法。比賽既具有協作性，又具有競争性，吸引了各方對計算機視覺領網域最新進展的關注。而參賽者所使用的數據集僅有 ImageNet 的千分之一大小。

「那就有意思了。」亞歷克斯回答道，「我都可以想象研究人員在互相交流新想法的時候問:『它在 ImageNet 上的表現怎麼樣?』」

這樣一來，ImageNet 也成了計算機視覺領網域的北極星了，我想。

如果鄧嘉論文的核心思想是正确的，如果 ImageNet 真的會引起一場大洗牌，帶來新的規則、新的直覺，甚至全新的範式，那麼還有什麼比通過比賽來探索這個數據集更好的方式呢? 激烈的競争壓力可以激發合作的集體力量。比賽要遵循一定的規則，但又要有探索性。即使經過多年的努力創建了 ImageNet，僅僅是想像着把它做成比賽，也為它注入了新的生機。

這也意味着将 ImageNet 推向世界的工作尚未結束。

然而，現實卻與我們的期望背道而馳。

（2010 年首屆比賽）獲勝算法來自一個由 NEC 實驗室、羅格斯大學和伊利諾伊大學的研究人員組成的聯合團隊。這個參賽算法的表現确實可圈可點，我們對每位參賽者的努力表示贊賞。不過，與計算機視覺領網域其他方面的前沿工作相比，這些算法只能算略有改進，很難說開啟了新的時代。

在 ImageNet 的發展歷程中，有很多令人洩氣的時刻，這次就是其中之一。如果說 2010 年的比賽虎頭蛇尾的話，那麼 2011 年的比賽則給人一種末日之感。2011 年的獲勝算法來自法國施樂研究中心，也是一種支持向量機算法，識别表現雖然比前一年有所提高，但也只是将準确率提高了 2 個百分點左右。

我開始意識到自己可能誤判了。正如我猜測的那樣，大多數算法都難以應對 ImageNet，但支持向量機比我想象的要強大，它為參賽者提供了安全的避風港，阻礙了我夢寐以求的激進創新。連續兩年，司空見慣的算法都只是在能力上略有提升，幾乎沒有任何真正的進步。最糟糕的是，參賽人數也出現急劇下降:第二年的報名人數從 150 人減少到 96 人，參賽算法也從 35 個減少到 15 個。願意為此付出努力的人似乎越來越少，也許這并不奇怪。

說這種經歷「讓人羞愧」已經遠遠不足以描述我們的心情了。為了推動 ImageNet 的發展，我們傾注了多年的心血，搜集的圖片數量遠遠超過以往的任何數據集，還精心策劃了一場國際競賽來探索它的能力，但結果卻只是簡單地重復了現狀。如果說 ImageNet 是一場賭注，是時候開始思考我們是不是已經輸了。

2012 年 8 月，讓我夜不能寐的事情終于不再是 ImageNet 了——我們的孩子出生了，我的生活主題變成了哺乳、換尿布和永遠不夠的斷斷續續的睡眠。

這一年，ImageNet 挑戰賽的結果将在意大利佛羅倫薩宣布，因為孩子的原因，我本不打算親自去參加，但有一天，鄧嘉深夜打來電話。這個時間點很不尋常，我的第一反應是出了什麼事。

「喂?」聽得出他很激動，但感覺不像是痛苦，而更像是興奮，準确地說，

是迷茫而興奮。因為鄧嘉一向淡定，所以他的語氣讓我格外留意。「是這樣的……我們一直在評估今年的參賽作品，其中的一個算法是……我的意思是……」

他遲疑了一下。

「怎麼了? 是什麼?」我問道。「好吧。獲勝的團隊使用了非正統的算法，是一種神經網絡算法。

你敢相信嗎?」我的耳朵豎得更直了。如果說剛才我的注意力還沒有完全集中在他的身上，那麼現在我肯定百分之百地在聽他說話了。「感覺像是……老古董。」

「真的嗎? 是神經網絡算法?」「是的，但還不止這些。飛飛，你不會相信算法的表現有多好。」

我一直在思考這次的獲勝算法。它的識别準确率高達 85%，比上一年的冠軍高出 10 個百分點，創造了計算機視覺領網域的世界紀錄。可以用一個數據來說明這個準确率的意義:我所看到的研究表明，人類的平均識别準确率約為 97%，而這還是對簡單得多的二元選擇而言 (比如判斷一張照片上是否有動物)。相比之下，算法需要篩選上千個選項才能找到正确答案。因此，雖然這個算法還沒有達到人類的水平，但已經比其他任何算法都更加接近，而且差距已經小到驚人。

冠軍算法名為 AlexNet，是向這項技術和項目的主要作者、多倫多大學研究員亞歷克斯·克裡熱夫斯基 (Alex Krizhevsky 致敬。

AlexNet 是卷積神經網絡 (Convolutional Neural Network，CNN) 的一個實例。卷積神經網絡的叫法源于圖形卷積過程。在這個過程中，一系列濾波器在影像上掃過，尋找與網絡所識别事物相對應的特征。這是一種獨特的有機設計，靈感來自休伯爾和威塞爾對哺乳動物視覺系統的觀察，即視覺處理在多個層次上進行。就像在自然界中一樣，卷積神經網絡的每一層都會逐漸整合更多的細節信息，從而形成越來越高層次的感知，最終将真實世界的物體完整地呈現在我們的視野中。

當然，這些并不是什麼新的創意。自從貝爾實驗室成功将卷積神經網絡應用于手寫郵編，楊立昆多年來一直對卷積神經網絡保持着驚人的忠誠。在 AlexNet 誕生時，他已經花了 20 年時間堅持不懈地完善算法、發表研究成果，但一直沒有必要的資源來充分實現這些成果。現在，幾乎在一夜之間，這種常被視為誤入歧途的執着似乎變得極具先見之明。楊立昆把自己的卷積神經網絡算法巧妙地命名為 LeNet（呼應他的英文名 Yann Le Cun)，其指導理念在 AlexNet 中熠熠生輝，宛如重生般煥發生機。

這種聯系讓 AlexNet 背後的三人團隊備受矚目。他們都是多倫多大學的研究人員，負責人是與項目同名的亞歷克斯·克裡熱夫斯基，以及他的合作夥伴伊利亞·蘇茨克維(Ilya Sutskever)。這兩個聰明的年輕人資歷尚淺，仍在建立自己的聲譽。然而，第三個名字立刻引起了我的注意：傑弗裡·辛頓。

Ilya Sutskever（OpenAI 聯合創始人、前首席科學家）與 Alex Krizhevsky 和 Geoffrey Hinton

就是這位辛頓，在 20 世紀 80 年代中期開發了反向傳播技術，成為早期機器學習的先驅。反向傳播的突破性方法首次實現了對大型神經網絡的可靠訓練。就是這位辛頓，曾經指導過彼時還是他實驗室學生的楊立昆。和他的學生一樣，辛頓拒絕放棄對神經網絡的研究，即使這讓他在同事中顯得形單影只。看來，AlexNet 絕不僅僅是一個參賽算法。這是一個歷經四分之一個世紀的正名時刻。

事實上，在 ImageNet 的幫助下，AlexNet 煥發生機，它貪婪地吸收着 ImageNet 的内容，在 ImageNet 規模和多樣性的土壤中生根發芽，茁壯成長。一直以來，神經網絡并不需要更花哨的數學公式和更奇特的抽象概念。我們期待神經網絡能夠理解世界，而它們只是在等待我們提供更加清晰的圖景，等待一些真正有學習價值的東西。大數據訓練了 LeNet 去理解復雜的人類筆迹，現在它也在訓練 AlexNet 去理解萬物。

後來我才知道，在 2012 年之前的幾年裡，辛頓重拾激情，想要證明神經網絡的可行性。2011 年，他認為自己比以往任何時候都更接近轉捩點，于是開始以一種既對抗又合作的方式與同事溝通，他的表達方式聽起來更像是提出挑戰，而不是提出問題。他跟同行探讨下一步行動計劃，其中一個同行就是吉滕德拉。雖然他們兩人早有交情，但吉滕德拉一直對辛頓的項目持懷疑态度。

「我要怎麼做，才能讓你相信神經網絡是未來的趨勢?」辛頓問道。

「你真的想打動我嗎，傑弗裡? 那就讓我看看它們能不能處理一些真正的任務。」

「比如?」

「比如物體識别，真實世界中的物體識别。」無論吉滕德拉對 ImageNet 有什麼看法，他的确相信視覺分類的力量，這一點我在加州理工學院時就了解到了，「你參加過 PASCALVOC 嗎?」

「參加了啊。但沒什麼用，他們的數據集太小了，例子不夠，所以我們給神經網絡展示新圖片的時候，泛化效果并不好。」

「那你就需要更大的數據集。你關注過飛飛的實驗室嗎? 等你準備好迎接真正挑戰的時候，可以看看她組織的比賽。」

不管吉滕德拉是真的對我的項目改變了看法，還是只是想打老朋友的臉 (這兩種情況似乎都有可能)，辛頓都認真地聽取了建議。

ImageNet 的數據廣泛而全面，覆蓋了世界上絕大多數物體。現在看來，AlexNet 和 ImageNet 也屬于相互成就。簡而言之，這就是最大的不同——現在算法可以探索的數據範圍大大增加了。一想到訓練完成後 AlexNet 的層級中包含的内容，我就驚嘆不已：形狀、邊緣、圖案、紋理，涵蓋我們多年來從互聯網上捕捉到的所有人物、動物和物體。現實世界中幽靈般的碎片，以恰到好處的方式組織起來，供算法來查看。

AlexNet 實現了

計算機視覺領網域的新跨越

第二天一早，消息就傳開了。據傳，會上将宣布一個具有歷史意義的事件。這些含糊不清的傳言激起了與會者的好奇心。

從研讨會開始的那一刻起，現場的氣氛就異常緊張，人群抽成了三派。第一派是 ImageNet 的少數支持者。第二派占絕大多數，由中立但感興趣的觀察者組成。第三派雖然人數不多，但态度強硬，也最直言不諱。他們是那些從早期就反對 ImageNet 理念的批評者，雖然我通常不理會他們的态度，但在會議現場很難忽視他們的存在。

更糟糕的是，我們并沒有形成統一戰線。辛頓無法親自參會，因為他長期患有背部疾病，幾乎不可能進行國際旅行，所以他派了亞歷克斯·克裡熱夫斯基代他出席。亞歷克斯非常有才華，也是算法的主要作者，所以可以代替辛頓。但就像許多傑出的人一樣，他的個人表現與他工作成果的高度并不相符——我不确定他是否完全理解這一點。他的表現笨拙而輕率 (這在學術界并不罕見)。一個典型的例子是，我在研讨會開始前多次給他發短信确認會面時間，但他完全沒有回應 (但幸好，他按時到了現場)。由于聽眾的懷疑态度空前高漲，他只擺事實、不帶情感的演講更難赢得他們的認同。

提問環節一開始，現場的緊張氣氛就越來越濃。我們聽到了所有常見的抱怨：ImageNet 太大了，不實用；沒有必要包含這麼多類别；物體識别模型還太原始，不需要如此龐大的數據集；等等。事實上，AlexNet 幾乎是逐點證明了相反的觀點，但奇怪的是，觀眾卻不信服。同時，也出現了一些新的批評聲音，有些甚至非常離譜。一位與會者（來自頂尖大學的後起之秀）煞有介事地提出，描繪 T 恤的圖片類别多樣性不夠，因而無法可靠地訓練模型。對此我更多的是感到好笑。是認真的嗎？T 恤圖片是致命弱點？會議現場的其他人也都一頭霧水。

但那些認真傾聽的人得到了回報。在 27 張幻燈片中，大多數只有黑白文字和圖表，卻以我們從未見過的清晰方式展示了神經網絡的本質，極具啟示性。繼羅森布拉特的感知機、福島的新認知機和楊立昆的 LeNet 之後，AlexNet 實現了計算機視覺領網域的新跨越。這一步早就應該邁出，卻歷經了數十年的醞釀，現在終于橫空出世，利用大型數據集充分彰顯了潛力。

尤其值得注意的是 AlexNet 的學習過程。

與所有神經網絡一樣，AlexNet 的初始狀态是無形的、惰性的，就像虛空中的一塊挂毯。然後，學習過程就開始了：面對從 ImageNet 庫中随機選擇的圖片，神經網絡的任務是從上千個标籤中選擇一個正确的标籤，對圖片進行标注。這個過程周而復始，不斷重復。

一開始，标注幾乎是不可能完成的任務；AlexNet 的數千萬個神經元是随機配置的，對世界甚至連一點兒模糊的理解都沒有，只會產生錯誤的結果。把一張蘑菇圖片标注為「瓶蓋」。錯誤。把一張拖車圖片标注為「電吉他」。錯誤。把一張棱皮龜圖片标注為「浴巾」。錯誤。

但失敗并非無用功。錯誤會觸發糾正信号，在網絡的數千萬個組成部分中蔓延開來，同時對每個部分對于結果的貢獻進行評估，并按比例推動它們下次采取不同的行動。這是最簡單的學習方式：減少失敗的行為，增加成功的行為。但學習的規模極大，算法會仔細審查每個錯誤的每個細節：每一片光影、每一個圖案和紋理、每一個柔和的漸變和堅硬的邊緣。

在早期階段，效果并不明顯，當 AlexNet 再次看到類似它之前錯誤分類的圖片時，很可能會再次出錯。不過，錯誤會更小一些。如此循環往復，直到正确為止，哪怕只是靠運氣。這一次，信号的目的是強化，而不是削弱：強化任何看似指向正确方向的東西。訓練繼續進行。錯誤。錯誤。錯誤。正确。錯誤。錯誤。正确。正确。錯誤。

ImageNet 規模巨大，算法學習也注定是個漫長的過程，即使只是為比賽挑選的 1000 個類别的子集，完成學習也需要很長時間。ImageNet 涵蓋了各種各樣的對象，比如數字鍾、籬笆、盤式制動器、秒表、意大利灰狗、微波爐、醋栗，每個類别都有上千個不同的品種。不過，AlexNet 本身也是個龐大的網絡。它有 65 萬個獨立神經元，通過 6.3 億個連接組成網絡，其中有 6000 萬個微小的、幾乎無法察覺的權重影響着連接的強度，當信号從網絡的一端流向另一端時，一些連接會增強，另一些則會減弱。

訓練從早到晚不停地進行，直到每幅影像的每個像素都被研究完畢。幾個小時變成幾天，幾天又變成一周。圖形處理器推動之。ImageNet 挑戰之。AlexNet 适應之。随着數以千萬計的權重一次又一次地調整，整個網絡出現了更龐大、更奢侈的結構。就像鐵匠用錘子敲打發光的鋼鐵。每次微小的增量積累，直到近乎肉眼不可見的擾動變成山脈和山谷，延伸到數千維的超空間。這個網絡是世界無數細節的幽靈般的均值，是 1000 種不同事物、每種事物 1000 幅不同照片留下的痕迹。這裡有 1000 只達爾馬提亞犬，那裡有 1000 個洗衣籃，另一處有 1000 個馬林巴琴。

就像地質變化一樣，種種印記凝聚成了地形，從 AlexNet 的一端延伸到另一端。削筆刀、清真寺、海星、曲棍球——所有事物都鑲嵌在這個地形之中。算法不僅「看到」了這些東西，還成為它們。我們花了數年時間在互聯網上搜尋照片，這些照片形成了完整多元的機器意識空間，原始而強大，成為世界一切事物的統一表征。

在經過 140 萬輪标注後，最後幾張圖片與其說是一場磨煉，不如說是一場加冕禮。網絡的焦點穿過像素，随着熟悉模式的識别而亮起，并傳遞到下一層，與其他模式相結合，形成越來越強大的感知。算法的反應不再是随機的，大多數也不再是錯誤的。土狼。正确。台燈。正确。敞篷車。正确。顯然，這是硬體、軟體和數據的神奇組合，比計算機視覺領網域所打造的任何成果都更接近于捕捉到塑造了人類這種哺乳動物思維的進化精神。

ImageNet 的多樣性是在全世界眾包志願者的共同努力下實現的。它所形成的拓撲結構無比多樣、強大，達到了聖杯的境地。AlexNet 是計算機視覺領網域有史以來最大的神經網絡，它的訓練數據比此前任何神經網絡都要豐富，而且具備了泛化能力。

ImageNet 與神經網絡算法、GPU 共同開創了現代人工智能時代，圖片來源：李飛飛推特

我們要花上幾個月的時間，才能真正理解在那個會議室裡看到的一切，但即使在那一刻，我們也清楚地知道我們正在見證非凡之物。這麼多年來，我一直希望 ImageNet 能夠推動新事物的誕生，現在我終于明白，一切的一切，都是為了認可和表彰一種永恒的成就，我們對此刻期待已久。受生物學啟發的算法幾十年來一直凝視着我們，它只是需要适當的挑戰，才能充分展現出來。

這個下午也讓我們有機會回顧計算機視覺領網域在過去 10 年的發展歷程。我的實驗室将所有賭注都押在了長達數年的、規模空前的數據追尋上，而辛頓的實驗室則将他們的聲譽都押在了卷積神經網絡這套幾乎已經被專業領網域抛棄的算法上。我們都在賭，都有可能賭錯。但在那一天，當我們看到神經網絡在 ImageNet 強大訓練能力的支持下展現出的驚人能力時，我意識到，雖然兩個項目都獲得了認可，但這只是因為它們是同步發展的。所有參與者都不知道，我們的每一步都相互依賴。

我在來時飛機上狂躁的思緒和焦灼的問題一掃而空，取而代之的是一種意外的感覺。不是平靜，而是大悟，是沉思。這一次，從起飛到着陸，我一直靜靜地坐着，腦子裡只回蕩着一個念頭：歷史剛被創造出來，而世界上只有少數人知道。

附：從 ImageNet 到 GPT-4 的發展史

2009 年，李飛飛在斯坦福大學完成 ImageNet 的初始版本，包含 1500 萬張影像，涉及 22000 個類别。

2012 年，傑弗裡·辛頓的團隊發明的 AlexNet 神經網絡算法在第三屆 ImageNet 挑戰賽上獲勝，深度學習革命時代到來。

2015 年，OpenAI 成立。

2016 年，DeepMind 開發的 AlphaGo 4:1 擊敗韓國圍棋冠軍李世石。

2017 年，DeepMind 團隊發表《Attention Is All You Need》論文，提出 Transformer 的新型神經網絡模型。

2018 年，GPT-1 發布

2019 年，GPT-2 發布

2020 年，GPT-3 發布

2022 年 12 月，ChatGPT 發布

2023 年 3 月，GPT-4 發布

2024 年 5 月，GPT-4o 發布