今天小編分享的教育經驗:Yann LeCun萬字通俗解讀:什麼是AI、怎麼用AI、别被AI焦慮困住(附視頻),歡迎閲讀。
作者| AI工作坊 管理智慧
來源 |AI深度研究員 管理智慧
咨詢合作| 13699120588
文章僅代表作者本人觀點
昨天,在印度班加羅爾,Meta首席人工智能科學家Yann LeCun與著名科技達人Nikhil Kamath展開了一場關于AI發展歷程、現狀和未來圖景的深度探讨。
作為人工智能領網域的開創者之一Yann LeCun從歷史視角梳理了AI的發展脈絡,揭示了這一領網域引人入勝的演變過程。早期的人工智能沿着兩條截然不同的路徑發展:一條專注于具體問題的規劃與解決,如物體堆疊順序優化或機器人避障等任務;另一條則致力于模仿生物智能機制,試圖理解和復制人類大腦的工作原理。這兩條路徑的交織發展,為今天AI技術的突破奠定了基礎。如今,人工智能已經形成了清晰的層級結構:最頂層是人工智能(AI),其下是機器學習,再往下則包括像DeepMind開發的強化學習系統和像ChatGPT這樣的自監督生成式模型等不同分支。
他預測,在未來五到十年内,AI系統可能逐步接近人類智能水平,這将給人類社會帶來深刻變革。最顯著的改變将發生在工作領網域,AI系統将承擔起大量具體的執行任務,而人類則轉向更高層次的決策和創新工作。這種轉變不僅僅是工作方式的改變,更是整個社會結構的重塑。傳統的知識儲備和技能培養方式将面臨挑戰,教育體系需要重新定位,更加注重培養抽象思維能力和創造力。
未來的AI技術也将釋放人類的創造力,讓我們能夠專注于更具戰略性和創新性的工作。這不僅僅是技術的進步,更是人類文明的一次重要躍升。
主持人:早上好,Yann,非常感謝你參與我們的節目。
嘉賓Yann LeCun: 很高興參加,謝謝邀請。
個人介紹
主持人: 我們想了解你更多一些。能否聊聊你的成長經歷,比如你在哪裏出生和長大?這一切是如何促成了今天的你?
Yann LeCun: 我在巴黎郊區長大,我的父親是一名工程師,很多東西我都是從他那裏學到的。從小我就對科學和技術感興趣,并且一直希望自己能成為一名工程師。我當時完全不知道如何成為一名科學家,但後來對這一領網域產生了興趣。
主持人:工程師和科學家之間的區别是什麼?
Yann LeCun: 這個問題很難定義。通常你需要兼具兩者的特質。科學家是試圖理解這個世界,而工程師是試圖創造新的事物。但如果你想要理解這個世界,往往也需要創造新事物。科學的進步很大程度上依賴于技術的發展,比如望遠鏡的發明推動了對行星的發現,以及它們圍繞太陽旋轉的研究。同樣,顯微鏡也為各種發現打開了大門。對我來説,一直以來讓我着迷的問題是揭開智能的奧秘。而作為一名工程師,我認為揭開這個謎題的唯一方式就是創造一台智能的機器。所以這是一個既有科學層面的理解,又有實踐層面的探索。而建立智能機器可能對人類產生深遠的影響。
主持人: 那麼你在巴黎上學時學的是什麼專業?
Yann LeCun: 我學的是電氣工程。但随着學習的深入,我對數學、物理和人工智能等更基礎的問題產生了興趣。我并沒有學習計算機科學,不過當時學電氣工程時計算機技術已經逐漸成為一部分了,特别是在80年代和70年代末我剛開始學習的時候。我還和數學教授一起做了一些關于人工智能問題的獨立項目,從此便沉迷于研究。我的最愛就是發明新事物、構建新事物,然後用新的方式理解它們。
主持人: 當人們稱你為"人工智能教父"時,你有什麼感受?
Yann LeCun: 坦白説,我不是特别喜歡這個稱呼。你知道,我住在新澤西,"教父"這個詞在新澤西聽起來像是黑手黨的意思(笑)。科學從來不是某個人單打獨鬥的追求。科學進步是多種思想碰撞的結果。我們提出假設,然後通過實驗或理論證明這些假設是正确的。這不是孤立的活動,總有許多人為進步作出貢獻。但是,由于這個世界的運作方式,我們往往只記住少數幾個人。我覺得很多人都應得到更多的認可,但我們往往難以記住每個人的貢獻。
主持人: 那麼,作為一名教師,你現在的感覺如何?在紐約大學(NYU)時,你是否被當成名人?
Yann LeCun: 可以説,過去幾年裏,學生在課後會過來找我拍自拍照(笑)。所以,這确實有點名人效應。不過,我覺得如果和學生在同一個教室裏互動是很重要的,否則他們完全可以直接看視頻。這就是我嘗試去做的事情,真正與學生互動。
科學中英雄
主持人: 在學術界或研究領網域成為英雄,是否和在體育或創業中成為英雄類似?還是更難一些?
Yann LeCun: 有一點讓我感到欣慰,那就是科學中也可以有英雄存在。我們可以説牛頓、愛因斯坦以及其他人都是科學的英雄,對吧?不過,牛頓并不是公眾人物,而愛因斯坦絕對是的。而且,在某種程度上,一些其他科學家也成為了小範圍的名人。這種現象部分來自于科學成果,但坦白説,有很多科學貢獻是完全默默無聞的,我覺得這有些遺憾。很多人之所以在科學和技術領網域出名,不僅僅因為他們的科學產出,還因為他們在公眾場合的立場。我與一些比較低調的科學家的不同之處,可能在于我在社交網絡上的活躍,以及我經常發表公眾演講,并對一些技術和政策問題表達明确的觀點。這種做法或許放大了我的知名度,也可能引起了一些争議。在某些圈子裏,我可能被看作是個徹底的"傻子"。
主持人: 在過去的幾周裏,我看了很多你的采訪。如果你用自己的視角指出當今世界的三個問題,會是什麼?
Yann LeCun: 作為科學家,我們試圖建立世界的因果模型。我們觀察到一些現象,然後追問這些現象的原因是什麼。而幾乎所有我們面臨的問題,其根源都在于人類知識或智慧的缺乏。我們犯了錯誤,因為我們還不夠聰明,沒有意識到問題的存在,也沒有找到解決問題的方法,甚至無法組織起來共同解決問題。比如説,氣候變化就是一個巨大的問題。這其中有政治問題,也涉及全球治理的組織問題。但同時,也可能存在技術解決方案。我希望我們更聰明一些,這樣可以更快找到解決方案。
我認為我們犯錯是因為我們還不夠聰明。如果我們對世界的運作有一個更好的心理模型——這也是人工智能的核心問題之一——我們就能更好地解決問題,做出更理性的決策。當今世界的一個大問題是,有些人對尋找事實并不感興趣,也不願意提升自己的知識水平,或者即使有興趣,他們也可能缺乏條件,比如無法獲取信息和知識。因此,我認為我們能做的最重要的事情就是讓人類變得更聰明。這也是我成為教授的一個原因。某種程度上,這也是從事人工智能工作的最好理由,因為人工智能可以放大人類的智慧,提升整個人類的集體智能。我認為這是解決許多問題的關鍵。
什麼是AI
主持人: 我先聲明,我在人工智能或技術方面是個"白痴"。我最近才開始試圖了解相關内容,雖然對此非常好奇,但仍知之甚少。我想今天可以探讨幾個問題:什麼是人工智能?我們是如何走到今天的?接下來可能會發生什麼?我們是否可以從"什麼是人工智能"開始聊起?
Yann LeCun: 好,這是個好問題。其實,這也引出了另一個問題:什麼是智能?知道那個"盲人摸象"的故事,對吧?第一個盲人摸到了大象的一側,説:"這聽起來像——看起來像是一堵牆。"然後另一個摸到了大象的一條腿,説:"這看起來像是一棵樹。"再一個人摸到了象鼻,説:"這是——這是個管子。"沒有人能夠完全了解大象是什麼樣子,每個人都只是從不同的角度看到了一部分。所以,将智能看作是為特定問題尋找解決方案的過程,這只是"大象"的一小部分。這是智能的一個方面,但并不是全部。然而,在20世紀50年代,人工智能的一個分支幾乎完全關注于這一點。這個分支基本上一直占據主導地位,直到1990年代。
當時的人工智能主要關注的是尋找解決方案或者制定計劃。比如,如果你想把一堆物體疊在一起,有些物體比其他物體更大,你需要組織這些物體的堆疊順序,尋找一系列能夠實現目标的動作,這被稱為"規劃"(planning)。又或者説,你有一個機器人手臂需要抓取一個物體,但前面有障礙物,你需要為機器人手臂規劃一個軌迹來抓取這個物體。所以,這一切都與規劃有關,這是尋找問題解決方案的一部分。但人工智能的這個分支——從50年代開始,到90年代之前都占據主導地位——完全忽略了感知這類問題,比如我們如何理解世界,如何識别一個物體,如何将一個物體從背景中分離出來以便識别它。
還有,我們如何思考——不是用邏輯或搜索的方式,而是更抽象的方式。這些在當時基本都被忽略了。但人工智能的另一個分支也始于50年代,它嘗試復制動物和人類身上的智能機制,而動物和人類擁有大腦。大腦會自我組織并學習,對吧?它們并不是天生聰明的,而智能是一種由大量簡單單元——神經元——互相連接後湧現出來的現象。所以在40年代和50年代,人們開始發現,智能和記憶來源于神經元之間連接的強度。從某種程度上,大腦學習的方式就是通過改變這些連接的強度。一些人提出了理論模型,甚至構建了電子電路來再現這一點。
主持人:你是説智能主要是解決特定問題的能力?
Yann LeCun: 這是其中一個觀點,即解決給定問題的能力。另一個觀點是學習的能力。這兩個觀點分别催生了人工智能的兩個分支。以學習能力為核心的分支,在50年代末和60年代初取得了一些成功,但在60年代末基本消亡了,因為當時用于神經網絡的學習方法非常有限。這種方法無法構建真正智能的機器,但在工程領網域的某些部分,比如模式識别,產生了很大影響。
主持人: 所以你是説,現在智能還包括系統學習的能力?
Yann LeCun: 對,學習能力。而機器最基本的學習場景是感知,比如解讀影像和聲音。
主持人:那麼,計算機是如何做到這一點的呢?
Yann LeCun: 這實際上促成了我們稱之為"經典計算機科學"的出現。基本上,你編寫一個程式,這個程式内部會搜索解決方案,并通過某種方式檢查它提出的解決方案是否合适。在60年代,人們将這種方法稱為"啓發式編程",因為無法窮盡所有可能的解決方案。以國際象棋為例,每一步都有許多可能的走法,而每個對手的回應也有許多可能,這樣下來可能的路徑或動作序列呈指數級增長。顯然,你不可能窮舉所有路徑并找到最佳策略,所以你需要使用啓發式方法,只搜索可能性樹的一部分。
卷積神經網絡
主持人: 人工智能是否從生物學中獲得了靈感?
Yann LeCun: 确實如此。神經科學家發現,大腦中的學習機制是通過改變神經元之間連接的強度實現的。人們想象這種學習機制可以在機器中再現。在40年代,數學家McCulloch和Pitts等人提出了神經元是簡單計算單元的想法。在50年代和60年代初,人們提出了一種非常簡單的算法,用于改變神經元之間連接的強度,從而讓神經網絡可以學習任務。第一台基于這種理念的機器被稱為"感知機",于1957年提出。這是一個非常簡單的系統。假設你想訓練一個系統識别簡單的形狀,比如區分"C"和"D"的形狀。
對于計算機或人工系統來説,影像是由數字組成的陣列。以黑白攝像頭為例,黑色像素表示為0,白色像素表示為1。如果使用50年代的技術,你需要一個光電傳感器陣列和一個鏡頭,将低分辨率影像輸入系統,比如20x20像素甚至更低。然後,這些像素的值會被輸入計算機。50年代的計算機非常昂貴,所以實際上是用電子電路實現這些操作的。像素會作為電壓輸入到傳感器,系統會根據輸入的像素值和權重計算一個加權和。如果加權和大于某個阈值,它就會認為這是"C";如果低于阈值,則認為是"D"。
主持人: 這是哪個年代?您説的是哪一年?
Yann LeCun: 1957年。
主持人: 那麼,這要如何訓練呢?
Yann LeCun: 訓練的過程就是改變那些權重的值。權重可以是正的,也可以是負的。具體來説,你向系統展示一個"C",然後系統計算加權和。對于"C",你希望加權和的值很大,大于零,比如這樣設定,對吧?如果加權和的值小于零,那麼系統就會犯錯。如果你以特定的方式構建神經網絡,能夠利用這些結構特性,那麼它的學習速度會更快,需要的樣本也更少。我們在80年代末期開始嘗試這種方法,并構建了卷積神經網絡(Convolutional Neural Networks,簡稱ConvNets)。這些網絡的設計靈感來自視覺皮層的架構,并且具有一定的數學依據。基本思想是,每個卷積網絡中的神經元只關注影像的一小部分區網域。多個神經元同時關注影像的多個區網域,并且它們的權重是相同的。
這個基本概念與一個數學概念——卷積(Convolution)有關,因此這些網絡被稱為卷積神經網絡。卷積具有一個有趣的特性:如果輸入發生偏移,輸出也會以相同的方式偏移,但其他部分保持不變。這種特性對于處理音頻信号、影像以及其他自然信号非常有用。Transformer是一種完全不同的神經元排列方式,其輸入是一系列不同的元素,我們稱之為token(實際上是一個數值向量的列表)。Transformer層或模塊的特點是:如果你對輸入項進行置換,輸出也會以相同的方式置換,但其他部分保持不變。
主持人: 當你説"其他部分保持不變"時,你的意思是什麼?
Yann LeCun:我的意思是,如果你給定一組token,并通過Transformer處理後會得到一組輸出token,通常輸出的數量和輸入的數量相同,但它們會是不同的向量。如果你将輸入序列的前一半和後一半交換位置,那麼輸出也會以同樣的方式交換位置,但其他特性保持不變。從技術上講,這被稱為"對置換的等變性"(Equivariance to Permutation),意思是它将輸入視為一個集合,集合中對象的順序并不重要。相比之下,卷積神經網絡将輸入視為可以在任意位置出現的對象,這種輸入的特性要求輸出随着輸入的偏移而發生變化,但其他部分保持一致。這種特性被稱為"對平移的等變性"(Equivariance to Translation)。當你構建神經網絡時,你可以将這些不同類型的組件組合起來,以獲得整個神經網絡的所需特性。例如,你可以組合卷積模塊和Transformer模塊。
主持人: 你能簡單解釋一下什麼是卷積神經網絡嗎?
Yann LeCun: 當然。卷積是卷積神經網絡的核心組件。其核心思想是,一個神經元只關注輸入的一部分,另一個神經元則關注輸入的另一部分,但它們的計算方式是相同的。這種神經元被復制到輸入的每個位置上,可以将每個神經元看作是在輸入的某個部分檢測特定的模式,而所有神經元則在不同位置上檢測相同的模式。這樣,如果輸入發生偏移,輸出也會相應偏移,但檢測的模式保持一致。這種特性就是"平移等變性"。從數學上講,卷積是很早以前數學家發明的一個概念,而卷積神經網絡實現的功能與其類似。
主持人: 你提到"神經元",在機器學習中這個術語具體指什麼?
Yann LeCun: 我們在這裏使用"神經元"這個詞,其實是一種語言上的誤用。神經網絡中的神經元和大腦中的神經元的關系,就像飛機的機翼和鳥的翅膀。雖然它們的設計理念相似,但并不相同(笑)。在神經網絡中,神經元的作用是計算輸入的加權和,然後将加權和與一個阈值比較。如果加權和高于阈值,神經元激活并輸出一個值;如果低于阈值,則輸出為零。這是神經元的基本功能。當然,神經元有不同的變體。在Transformer中,使用的是稍微復雜一些的數學方法,比如比較向量之間的關系,但核心還是通過線性操作和非線性激活函數實現的。
"生成式"由來
主持人: 我們在研究時發現,很難找到一個簡單的神經網絡語言模型定義。你能解釋一下嗎?
Yann LeCun: 語言模型的概念可以追溯到20世紀40年代。一位名叫Claude Shannon(克勞德·香農)的數學家提出了這個想法。他是一位非常著名的數學家,曾在貝爾實驗室工作,我也在那裏工作過,不過他在我加入之前已經離開了。他提出了一種叫做信息論(Information Theory)的理論,并對從數據中發現結構的想法深感興趣。他發明了一種方法:給定一段文本,提出問題——"在給定一系列字母後,下一個字母會是什麼?"例如,我們可以用一個英文單詞或其他類似拉丁字母的語言來説明這個問題。如果有一串字母,而最後一個字母是"Q",那麼下一個字母很可能是"U"。在英語中,幾乎不會出現沒有"U"跟在"Q"後面的情況,除非這個單詞是阿拉伯語的音譯詞或其他特殊情況。所以,對于你觀察到的每一個字母,你都可以建立一個概率表,顯示下一個字母是"A"、"B"、"C"、"Q"或"U"的概率是多少。
主持人: 這就是"生成式"(Generative)這個詞的由來嗎?
Yann LeCun: 是的。這被稱為生成式模型,因為如果你有這樣一個"條件概率"(Conditional Probability)的表,即給定前一個字母,下一個字母的概率是多少,你就可以用它來生成文本。假設你從一個字母開始,比如"Q",然後你查找概率表,看看最有可能的下一個字母是什麼。選擇這個字母,可能是"U"。或者你也可以不總是選擇最有可能的字母,而是根據概率随機選擇。比如,你可以用抛硬币或在電腦上生成一個随機數,根據真實文本中測量到的概率生成後續字母。然後你繼續重復這個過程。這樣系統就會生成一串字母。不過,這些字母可能看起來不像單詞,甚至可能無法發音。但是,如果你不是只考慮一個字母作為上下文,而是使用兩個字母作為上下文,那麼生成的内容就會更可讀一些。
但如果你使用三個字母作為上下文,結果會更好看一些。随着上下文長度的增加,用來決定下一個字母概率的上下文越來越大,生成的内容會變得越來越可讀。不過,這裏有一個問題。如果你只看第一個字母,并嘗試預測下一個字母的概率,你需要一個包含26行和26列的表格。也就是説,對于每個可能的第一個字母,你需要記錄每個可能的第二個字母的概率,這樣就形成了一個26×26的表格。如果你使用兩個字母作為上下文,那麼表格的行數将是26的平方(26²),因為有26²種可能的兩個字母組合。而對于每一種組合,你需要記錄26個可能的下一個字母的概率。這樣表格的大小就是26³。如果繼續增加上下文字元數,表格的大小會變成26的n次方(26ⁿ),其中n是序列的長度。這種方法被稱為n-gram模型。這是基于英文字母的模型。如果在單詞層面使用這種模型,問題會更復雜,因為可能有十萬個單詞。因此,表格的規模會變得巨大。
你可以通過訓練大量文本語料庫來填充這個概率表,從而訓練出一個基于單詞的語言模型。然而,當上下文長度達到一定程度時,這種方法變得不切實際。原因在于計算需求過高,同時也需要存儲這些巨大的表格。此外,這些表格的數據非常稀疏,因為即使你有數十億單詞的文本,大多數單詞組合都不會出現。有些組合極為罕見,因此你無法準确地估計它們的概率。
主持人: 這是自監督學習的一部分嗎?
Yann LeCun: 可以将其視為自監督學習的一種實例,因為你只需要符号序列,并不關心它們的來源。如果這些符号不是文本,它們也不一定要來自人類,比如,它們可以是視頻幀的序列。你需要将這些幀轉換為離散對象,盡管這很困難,但它可以是任何形式的數據。在90年代末,有人提出了一個想法,特别是Yoshua Bengio提出,你可以使用神經網絡來完成這種預測任務。他的想法是,與其用文本測量的條件概率填充表格,不如用神經網絡來預測下一個單詞。你可以給神經網絡一個上下文,訓練它生成下一個單詞的概率分布。他在當時實驗了一些"大的"神經網絡(相對于當時的技術),但這些網絡在今天看來還是很小的。
一個困難是,你無法準确預測下一個單詞是什麼,因此你需要生成所有單詞的概率分布。在典型的語言中,可能有十萬個單詞,這意味着你需要輸出十萬個分數,每個分數表示該單詞跟随前一個單詞序列的概率。他證明了這種方法是可行的,即使在當時的計算能力下,這仍然是具有挑戰性的,但它确實能奏效。這個想法在最近幾年得到了復興,人們發現如果使用Transformer架構(我之前沒有詳細解釋),并将它們訓練在互聯網上幾乎所有公開的文本上,同時構建一個能夠利用上下文預測下一個單詞的系統,就可以產生非常強大的效果。
如果上下文長度足夠大,比如幾千、幾萬甚至一百萬個單詞,你會得到一些具有"湧現屬性"的系統。它們能夠回答問題,能夠解決一些任務。如果你讓這些系統變得非常龐大,比如它們的可調整參數達到數百億甚至上千億,這賦予了系統巨大的記憶能力,使其能夠存儲大量關于訓練數據的知識。如果訓練數據是文本,它們可以提供難題的解決方案,或者回答你的問題。這主要是檢索能力,包含極少量的推理能力,但推理并不多。這是一個重要的局限性。然而,這些系統的表現仍然令人驚訝。人們感到驚訝的是,這些系統能夠以非常令人印象深刻的方式操控語言。要知道,人類在操控語言方面其實是有限的,但這些系統似乎在這方面表現得非常優秀。它們能掌握多種語言的語法、句法以及其他語言特性。
主持人: 這真的很了不起。
Yann LeCun: 如果讓我回頭描繪一棵"樹"的結構,比如説人工智能(AI)在最頂端,下面是機器學習。我想讨論的是今天新聞中常提到的内容,也就是讓所有人感到興奮的領網域。機器學習下面有不同的分支,比如像DeepMind這樣的強化學習(Reinforcement Learning),還有像ChatGPT這樣的自監督生成式模型。ChatGPT現在是最流行的例子,所以可以用它來作為代表。确切地説,這叫"大型語言模型"(LLM)。LLM(Large Language Model)。準确地説,應該叫"自回歸大型語言模型"(Autoregressive LLM)。是的,确實應該這麼叫。準确的結構是這樣的:AI在頂端,機器學習是解決AI問題的一種具體方法。現在的AI基本上都以深度學習為基礎,而深度學習實際上是神經網絡的多層結構,這個概念可以追溯到20世紀80年代和反向傳播算法。這仍然是我們今天所做的一切的基礎。在深度學習之下,有幾種主要的架構家族,比如卷積神經網絡(Convolutional Neural Networks)、Transformer,以及它們的組合。在Transformer架構下,又有幾種不同的變體,有些可以應用于影像識别或音頻處理,有些可以用于表示自然語言,但并不用于生成語言。還有一個子類别是大型語言模型(LLM),它們屬于自回歸Transformer模型。
Transformer架構的一個特點是,它可以預測下一個單詞。然後,你可以用它來生成單詞,因為給定一串單詞,它會根據訓練結果生成下一個單詞。給定一段文本,系統預測下一個單詞後,将輸入向右移動一個單詞,然後用生成的單詞作為新輸入的一部分,接着預測第二個單詞,再次移動,預測第三個單詞,如此反復。這就是自回歸預測(Autoregressive Prediction)。這個概念與金融學或計量經濟學中的自回歸模型類似,是同一個原理。
AI的下一個挑戰
主持人: 這些模型對于文本最有效,但對影像、視頻等其他内容不太适用,對嗎?
Yann LeCun: 是的。這些模型适用于文本而不适用于其他類型數據的原因在于,文本是離散的。文本中的可能性是有限的,因為字典中單詞的數量是有限的。如果你能将信号離散化,那麼就可以使用自回歸預測系統。但主要的問題是,你永遠無法做到精确預測。因此,系統需要學習某種概率分布,或者至少為不同的潛在輸出生成不同的評分。如果可能性是有限的(比如語言),你可以輸出一個概率列表。但是如果你想預測視頻中會發生什麼,可能的幀數是幾乎無限的,對吧?
比如,你有一百萬個像素,一個影像是1000×1000像素,像素是彩色的,你需要為每個像素生成三個值。這意味着你需要生成300萬個值,而我們不知道如何對所有可能的300萬個像素值的影像集合表示概率分布。
這就是為什麼許多人對這一問題感到興奮。這被許多人視為AI的下一個挑戰。總的來説,核心是構建能夠通過觀察視頻來學習世界運作方式的系統。
主持人: 如果我們談到視頻和圖片,通過這些内容學習,這将是下一階段的發展。那麼,這種學習在整個人工智能的框架中處于什麼位置?它屬于目前LLM(大型語言模型)的範疇嗎?
Yann LeCun: 不,這和LLM完全不同。這也是為什麼我一直明确表示,LLM并不是通向人類級智能的道路。LLM适用于離散的世界,但它們無法處理連續的高維世界,而視頻正是這種連續高維世界的典型案例。這就是為什麼LLM無法理解物理世界,也無法以其當前的形式真正理解物理世界。LLM在操控語言方面表現得非常出色,但它們會犯非常愚蠢的錯誤,這些錯誤揭示了它們其實并不了解現實世界及其底層邏輯。這也是為什麼我們現在有能夠通過律師資格考試或為你寫文章的系統,但沒有能夠實現完全自主的家庭機器人,也沒有能夠完全實現5級自動駕駛的汽車。
我們還沒有那些能夠真正理解一些非常基礎的事情的系統——比如你家的貓都能理解的事情。所以,我一直堅持認為,最聰明的LLM也不如你家的貓聰明,這的确是事實。未來幾年最大的挑戰是構建能夠突破LLM局限的人工智能系統。這些系統需要能夠理解物理世界,并具備持久記憶(Persistent Memory),而這正是目前LLM所缺乏的。
模型記憶能力
主持人:LLM現在沒有持久記憶嗎?
Yann LeCun: 對,持久記憶,意思是系統可以記住事物,将事實存儲在記憶中,并在需要時檢索這些事實。LLM有兩種類型的記憶,但它們非常有限。第一種記憶是在參數中,也就是訓練過程中調整的系數。這些參數會"學習"一些東西,但并不是存儲某條具體的信息。比如,如果你用一堆小説來訓練一個LLM,它并不能逐字逐句地"背誦"這些小説的内容。但它會記住一些關于這些小説中單詞統計的内容,可能能夠回答一些關于故事的概括性問題,但它不會完整記住小説的每一個字。這種記憶有點像人類:你讀過一本小説後,不能記住所有的文字,除非你花了大量精力去記憶每個字。這是第一種記憶類型。
第二種記憶是上下文(Context),也就是你輸入的提示内容。由于系統能夠生成單詞,而這些單詞會被重新注入到輸入中,它可以将這些單詞用作某種工作記憶(Working Memory),但這種記憶形式非常有限。我們真正需要的是一種類似于我們大腦的記憶系統,這種記憶系統在哺乳動物中被稱為海馬體(Hippocampus)。海馬體是大腦中位于大腦皮層中心的一個結構。我們需要人工智能擁有類似的功能結構來實現持久記憶。如果你沒有海馬體,你就無法記住事情超過大約90秒。
主持人: 如果我們從之前描述的"智能"開始畫一條路徑,一直到自監督學習,您認為這條路徑會如何通向從視頻、影像中學習以及更接近人類般的智能?
Yann LeCun: 我一直嘗試繪制的路徑是,探索新的架構,不同于用于LLM(大型語言模型)的自回歸架構,這些新的架構可以适用于視頻,從而能夠利用自監督學習來訓練這些系統。這種自監督學習的形式基本上是這樣的:這裏有一段視頻,請預測接下來會發生什麼。如果一個系統能夠很好地預測視頻中的下一幕,那麼這就意味着它可能已經理解了很多關于世界底層結構的信息。類似于大型語言模型(LLM)通過訓練預測下一個單詞而學到很多關于語言的知識,盡管這種理解和人類的理解并不完全一樣。
主持人: 如果要簡短地描述一下,這種架構可能是什麼樣子?
Yann LeCun: 問題在于,自回歸架構适用于文本,因為文本是離散的,而對于連續高維數據,比如影像和視頻,你無法預測接下來的内容。這在數學上是不可行的,或者即使可行,也無法實用化。例如,預測一段視頻中的所有像素變化,基本上是不可能的,至少對于我們感興趣的問題來説沒什麼用處。我們想要的是一種系統,能夠預測世界的未來狀态,因為這是一種能夠規劃行為的好方法。如果我能夠計劃:當我的手接近玻璃杯時,我握住它并抬起,我就能抓住玻璃杯并喝水。
這種系統需要擁有一個良好的世界模型(World Model),它能夠表示當前世界的狀态(比如時間點T,玻璃在桌子上),然後計劃我的動作(比如握住玻璃并抬起),預測未來的狀态(比如時間點T+3秒,玻璃已經在我的手中)。有了這樣的模型,系統就能預測一系列動作的結果,并在"腦海中"模拟這些結果是否能滿足某個目标,比如喝一口水。通過搜索(這又聯系到了早期的AI方法),系統可以尋找一系列動作來實現這個目标。這種推理和規劃是心理學家稱之為"系統2"(System 2)的能力。Daniel Kahneman(已故的諾貝爾獎得主心理學家)提出了"系統1"和"系統2"的概念。
系統1無需思考潛意識的反應式的
系統2深思熟慮需要計劃復雜行為
系統1:是指無需思考就能采取的行為,潛意識的,反應式的。
系統2:是指需要經過深思熟慮和計劃才能完成的行為或一系列行為。
主持人: Yann,您認為記憶最終會成為答案嗎?因為從生物學角度看,人類正是通過記憶進行學習的,對吧?
Yann LeCun: 這取決于記憶的類型。我們也有多種記憶類型,比如海馬體(Hippocampus),我剛剛提到過的。海馬體用于存儲長期記憶,比如你小時候發生的事情,關于世界的基本事實,比如你母親的生日,或者"你是從哪個方向進入這個房間的,門在哪裏"。當然,這也包括較新的短期記憶。
50年後的AI
主持人: 這是否有點像預測明天?比如,如果我用視頻記錄了我到目前為止的生活,把它輸入編碼器,是否會得到某種關于明天的抽象表示?
Yann LeCun:是的,但這是在抽象層面上的預測。你可以預測回班加羅爾需要多長時間,但你無法預測回程中所有的細節,比如具體的交通情況可能會讓時間有所變化。
主持人: 如果我們試圖預測50年後的未來,把我們目前的生活視頻編程輸入一個架構,并用它來預測未來50年,你認為會看到什麼?氣候變化還是世界大戰?
Yann LeCun: 我會看到……好吧,現在有一個計劃,在未來幾年内構建能夠通過視頻理解世界的系統。這些系統或許能夠學習到關于世界的模型,這些模型可以基于動作來推測後果。它們可能能夠分層次地計劃復雜的動作序列,因為這些世界模型本身是分層的。這些模型能夠預測非常短期的事件,非常精确,比如如果我以某種方式移動我的肌肉,我的手臂在毫秒級時間内會出現在某個特定位置。這種預測範圍很短,但非常精準。它們也能夠做更長期的預測,比如如果我去機場乘坐飛機,我明天早上就能到巴黎;或者如果我努力學習并取得好成績,我将會擁有一份美好的生活。通過這些預測,系統可以設計出滿足某些條件的計劃,從而實現目标。
主持人: 如果人工智能預測未來,它會是烏托邦還是反烏托邦?
Yann LeCun: 它會是烏托邦。因為它只是一種替代我們大腦預測未來的方法,以及用另一種方式規劃動作序列以滿足某些條件、實現目标。它或許能夠積累更多的知識來完成這些任務,并擁有一些人類因為大腦的局限性而無法具備的能力。比如,計算機可以快速計算和處理復雜的任務。如果我們成功地實施這個計劃——可能在未來五到十年内實現,那麼我們将擁有随着時間推移能夠逐漸變得像人類一樣智能的系統。或許能夠在十年内達到人類智能水平,但這可能是一個樂觀的估計。
主持人: 五到十年?
Yann LeCun: 是的,如果一切順利,所有的計劃都能夠成功實現,而且沒有遇到意想不到的障礙,這可能會發生。但這種理想情況幾乎肯定不會發生,對吧?
主持人: 你似乎不太喜歡這個可能性,對吧?像AGI(通用人工智能)和人類級别的智能,你認為這是非常遙遠或者不太可能的事情嗎?
Yann LeCun:不,我不認為它那麼遙遠。我認為我的看法與Sam Altman或Demis Hassabis等人并沒有太大的不同。可能會在十年内實現,但不會是明年,也不會是兩年内,它需要更長的時間。所以你不能僅僅通過擴大LLM(大型語言模型)的規模,比如用更大的計算機和更多的數據進行訓練,就認為人類級别的智能會自然出現。這種方法行不通。我們需要全新的架構,比如那些JEPAs(Joint Embedding Predictive Architectures),這些系統能夠從真實世界中學習并且能夠分層規劃。
它們能夠規劃一系列的動作,而不僅僅是像LLM那樣"逐詞生成",幾乎沒有深度思考。因此,我們需要的是"系統2"(System 2),而不是"系統1"(System 1)。LLM屬于系統1,而我描述的架構,也就是目标驅動人工智能(Objective-Driven AI),屬于系統2。
LLM的變化
主持人: 關于LLM,讓我們把這個讨論環節結束一下。因為它現在很熱門,所有人都在談論LLM。通常你會定義一個問題,找到一個大型數據集,大部分時間都花在清洗數據上。然後選擇一個模型,訓練模型,最後執行模型。在此之前,還需要微調模型。
Yann LeCun: 是的,微調模型是在訓練之前完成的。
主持人: 那麼這裏會有什麼改變嗎?
Yann LeCun: 我們仍然需要收集數據和過濾數據,以确保數據的高質量,并剔除無用的内容。這實際上是整個過程中特别昂貴的部分之一。但我認為需要發生的變化是,目前LLM的訓練主要使用的是公開可用的數據和授權數據的結合,基本上以公開數據為主,比如互聯網上的公開文本。但這些數據存在很多偏差,比如很大一部分是英語内容。雖然像印地語這樣的常用語言也有相當數量的數據,但在印度的22種官方語言中,許多語言的數據量并不多,更不用説印度的700多種方言(或者無論具體數目是多少)了。尤其是這些方言大多是口語,而不是書面形式。
未來我們需要的是更加包容的數據集,使得訓練出的系統能夠理解全世界的語言、文化、價值體系等等。我認為沒有任何單一實體能夠完成這樣的任務。這也是為什麼我認為AI的未來将成為一種公共基礎設施,成為一個所有人都可以使用的人類知識儲備庫。這樣的系統無法由單一實體建成,它需要成為一個協作項目,訓練工作分布在全世界各地。這樣我們就可以在全球範圍内的數據上訓練模型,而不需要将數據集中到某個地方。
主持人: 在一次私人交流中,我正在評估一個數據中心業務以進行投資。很多人告訴我,計算能力作為一種商品,很快會在數據中心外部出售,而不再局限于數據中心内部。那您覺得,将精力和時間集中在印度建設數據中心是一個好方向嗎?
Yann LeCun: 是的,在那種未來裏,每個國家都可能更加努力地保留自己的數據,就像我之前提到的模型分布式訓練的情況那樣,擁有本地的計算基礎設施非常重要。所以我認為這非常關鍵。
這有兩個主要原因:兩個主要原因
本地訓練能力1 低成本推理能力2
因為如果你希望AI系統能夠服務,比如8億印度人(我知道印度人口超過8億,但并不是每個人都會使用AI系統),那麼這需要非常龐大的計算基礎設施。這實際上比用于訓練的基礎設施規模要大得多。推理的領網域比訓練的領網域有更多的創新機會。目前,訓練領網域由NVIDIA主導,未來可能會有其他參與者。但其他玩家很難與之競争,主要是因為軟體棧的問題。他們的硬體可能非常好,但在軟體棧方面面臨挑戰。
然而,在推理領網域,有更多的創新正在發生,這些創新正在降低成本。我認為LLM推理的成本在兩年内下降了100倍。這真的很驚人,對吧?它的速度遠遠超過摩爾定律。我認為這裏還有很大的改進空間。你需要這種改進,因為你希望AI系統的推理成本能夠達到每處理100萬個token只需幾盧比。如果你想在印度廣泛部署AI系統,這将是未來發展的方向。
年輕人的建議
主持人: Yann,我意識到我們的時間快到了,作為一個20歲的印度年輕人,如果想在人工智能領網域創業或建立一份職業生涯,我們該怎麼做?以今天的現狀來看。
Yann LeCun: 作為一個今天20歲的人,我會祈禱在我22歲畢業時,印度能有很好的博士項目。
主持人: 從非學術的角度來説,我是指……
Yann LeCun: 但這正是我需要接受的訓練,以培養我的創新能力。攻讀博士學位或研究生課程可以訓練你發明新事物,同時确保你所使用的方法論能夠防止自己被誤導,以為自己是一個創新者,而實際上并不是。
主持人: 如果我是一個企業家呢?
Yann LeCun: 一個25歲的企業家?即使你是企業家,你仍然應該考慮攻讀博士學位,或者至少是碩士學位。因為你需要真正深入地學習。當然,你也可以自己學習,但攻讀學位非常有用。因為這樣你可以更多地了解當前的技術水平,知道什麼是可能的,什麼是不可能的。此外,這還能讓你在招聘有才華的人時更具權威性。特别是在像人工智能這樣復雜且高度技術化的領網域,攻讀研究生學位有很多優勢。通過語音以自己的語言與AI助手互動,我認為會為農業以及其他各類領網域帶來許多新的應用。
投資AI的方向
主持人:如果我從企業家的視角切換到投資者的視角,投資AI領網域能帶來哪些好處?作為投資者,您認為應該投資哪些領網域?是NVIDIA、Meta的Llama、ChatGPT還是OpenAI?
Yann LeCun: 好吧,我認為第一步是想象五年後的未來會是什麼樣子。
主持人: 我猜想,Yann,你對未來的想象應該比我更具洞察力。您能描繪一下五年後的世界嗎?
Yann LeCun: 五年後,世界将由開源平台主導。原因與嵌入式設備和作業系統領網域被Linux主導的情況類似。如今,整個世界都在運行Linux,但20年前、25年前并不是這樣。之所以如此,是因為開源平台更加可移植、更靈活、更安全,而且部署成本更低。我不應為此歸功于自己,但我們有一位名叫Kailash的CTO,他是開源的堅定支持者,我們所做的一切都基于開源。我們還有一個基金會,為開源公司提供資助,類似這樣的事情。所以,未來的世界将是開源的。在未來幾年内,我們将擁有開源的AI平台。這些平台可能會以分布式的方式進行訓練,因此它們不會完全由某家公司控制。目前占主導地位的專有引擎在未來的重要性不會像今天這樣高,因為開源平台在性能上正在迅速趕上。而且,我們知道,像Llama這樣的開源引擎經過微調後,往往比未微調的頂尖通用模型表現更好。
主持人: 但如果一切都開源了,對于投資者來説,這種"民主化"是否會削弱差異化?
Yann LeCun: 實際上,開源生态系統反而能激發更多可能性。如果你是初創公司,使用開源引擎并為垂直領網域進行微調,比使用API更有優勢。因為通過微調,你可以為客户打造更加量身定制的產品,從而更好地滿足他們的需求。
主持人: 這是一方面。另一方面,如果你真的希望這項技術能夠實現民主化,并為每個人所用,比如通過智能眼鏡之類的設備——當然一開始可能只是智能手機。你認為技術互動的形式會很快改變嗎?從智能手機轉向其他設備,比如智能眼鏡?
Yann LeCun: 是的,我想這幾乎是毋庸置疑的。我現在沒有戴它們,不過它們就在我的包裏。我經常用它們。我發現它們在很多方面都很有用,即使不使用AI,也可以用來拍照、聽音樂之類的東西。但有了AI助手後,比如我在餐館裏拿着一份外文菜單,它可以為我實時翻譯内容。
AI技術普及
主持人: 随着這些變化,社會中的智能會發生什麼變化?在人類世界裏,人類智能會變成什麼樣子?
Yann LeCun: 人類的智能将轉向一組不同的任務,而不是我們今天正在嘗試完成的那些任務。因為我們今天嘗試完成的許多任務将由AI系統完成。所以我們将把注意力轉向其他任務,比如不是"做事",而是"決定做什麼"或者"思考該做什麼"。這是兩個不同的事情。想想公司裏的一個基層員工,他們只是被告知要做什麼并完成任務。再對比公司裏的高層管理者,他們需要思考戰略、決定該做什麼,然後告訴其他人去執行。我們所有人都會成為"老板"。我們都會像那些高層管理者一樣,告訴AI系統該做什麼,而不必自己親自去做。
主持人: 但相比今天需要很多人來完成這些任務,将來讓更高效的系統執行這些任務需要的人會少得多,對吧?
Yann LeCun: 是的。
主持人: 那麼其他人會怎樣?
Yann LeCun: 我認為每個人都會處于這樣的境地:可以使用AI系統并将大量任務委派給它們,主要是在虛拟世界中,但最終也會擴展到現實世界中。到某個時候,我們會擁有家用機器人、自動駕駛汽車等等,只要我們弄清楚如何通過視頻讓系統學習真實世界的運作方式。,我們未來能夠專注的任務類型将會更加抽象。同樣地,現在已經沒有人需要做非常快的心算了——我們有計算器。也不需要手動解積分和微分方程了。我們只需要學習這些事情的基礎知識,然後可以用計算機工具來完成它們,對吧?所以,這将提升我們所處的抽象層次,從而使我們能夠更加富有創造力,更加高效。你和我學習過的許多事情,未來的後代可能都不需要學習,因為這些事情會被機器處理掉。
主持人: 比如上學?
Yann LeCun:不,不。我們還是需要去上學的。我們仍然需要接受教育。人類之間的競争依然存在,比如誰能做得更好、更與眾不同,或者更具創造性。這種競争永遠存在,對吧?因為從本性上來説,我們希望與他人競争。所以我們不會沒有工作。和我交流的經濟學家告訴我,我們不會沒有工作,因為我們不會沒有問題需要解決。但借助AI,我們會找到更好的解決方案。
主持人: 也許今天我們可以這樣結束,Yann,嘗試定義一下"智能"到底是什麼。我寫下了一些定義,比如智能是信息的集合和吸收新技能的能力;是一組技能以及快速學習新技能的能力。
Yann LeCun: 或者是無需學習就能解決問題的能力。在AI領網域,這叫零樣本學習(Zero-Shot)。你面對一個新問題,從未接觸過類似的問題,但你可以通過思考和運用你對情境的心理模型來解決它。這就叫零樣本學習(Zero-Shot)。你不需要學習新技能,而是從零開始解決問題。
所以,智能是以下三件事情的結合:
1、擁有一系列你已經掌握的技能,以及解決問題和完成任務的經驗;
2、能夠通過少量嘗試快速學習新任務的能力;
3、能夠無需學習新知識而解決新問題的能力(零樣本)。
這三者的結合就是智能的真正定義。
主持人: 謝謝你,Yann,感謝你今天的分享。
Yann LeCun: 謝謝,非常榮幸。