今天小編分享的科學經驗:LeCun最新訪談:距離AGI可能不到10年,下一代AI需要情感和視覺訓練,歡迎閲讀。
語言模型的發展已很難有大的突破了。
這是 LeCun 最新訪談中給出的斷言。
頭戴 Meta 爆火智能眼鏡,LeCun 再次表示人類距離 AGI 的時間沒有那麼近,"大約在 5-10 年",對語言模型發展的判斷更是不樂觀。
未來在哪?還是得看世界模型。
未來 AI 需要情感、視覺訓練,能夠理解物理環境的世界模型。
而 AI 發展的關鍵是啥?開源,Llama 之于 AI 就像是 Linux 之于互聯網。
如果 Llama 未來可以發展成一個全球的、分布式的 AI 計算平台,可以大大促進 AI 的發展。
此次訪談在約翰霍普金斯大學布隆伯格中心進行,主持人是 Vox Media 的卡拉 · 斯威舍(Kara Swisher)。
在不改變原意的前提下,量子位對訪談的重點内容進行了梳理。
更智能的 AI 需要情感和視覺能力
Q:你獲得了 2024 年 Vin 未來獎,在獲獎感言中你提到,AI 的學習方式不像人類或動物,它們沒有從物理世界中獲取大量的視覺觀察,但你一直在努力實現這一點。
LeCun:我們将會有一些系統,它們會像人類和動物一樣高效地學習新技能和新任務,目前我們還無法用機器復制這一點。
我們無法制造出足夠聰明的家用機器人,原因很簡單,因為我們訓練的 LLM 和機器人都是基于所有公開可用的文本,大約有 20 萬億個單詞,每個單詞大約由三個字節表示,所以大約是 6 乘以 10 的 14 次方個單詞。
心理學家會告訴你,一個四歲的孩子總共醒着的時間是 16000 小時,視覺信息以每秒大約 2 兆字節的速度進入孩子的大腦。我們來算一下,我們有 100 萬到 200 萬根視神經纖維,每根每秒大約攜帶一個字節,我們有兩只眼睛,所以大約是每秒 2 兆字節。
這樣計算,16000 小時就是10 的 14 次方字節,這與最大的 LLM 通過文本看到的數據量相同。我們要花上幾萬年才能讀完這些文本。這告訴我們,我們永遠不會僅僅通過訓練文本達到人類水平的 AI,我們必須訓練感官輸入。
基本上,視覺輸入是無限的,16000 小時的視頻大約是 YouTube 上 30 分鍾上傳的視頻總時長。我們擁有的視頻數據比我們能處理的要多得多。因此,未來幾年 AI 要取得下一個級别的進步,最大的挑戰就是讓系統通過觀看視頻并互動來理解世界是如何運作的。
這個問題還沒有解決,但我認為在接下來的五年裏,很有可能取得重大進展,這就是為什麼你會看到所有這些公司開始制造人類機器人。他們還造不出足夠聰明的機器人,但他們相信在未來五年内 AI 會取得足夠的進步,到時候這些機器人就可以賣給公眾了。
我們設想在未來幾年的構建藍圖中,AI 系統将具有情感,這是這些系統設計的基本組成部分。為什麼它們會有情感呢?因為它們将由目标驅動,你給它們一個必須完成的任務,它們的目的是在硬編碼到它們設計中的約束條件下完成這個任務。
為了做到這一點,它們需要幾個組件。首先,它們需要一種方法來确定我們給它們的目标是否已經完成。此外,它們還需要一個我們稱之為世界模型的東西,這是我們所有人在前額葉皮層中都有的東西,它允許我們想象我們行為的後果是什麼,它讓我們能夠規劃一系列行動來完成一個特定的目标。
如果你有能力提前預測一系列行動将產生什麼,那麼你就可以預測一個目标是否會得到滿足,以及預測結果會是好是壞。如果你預測結果會很糟糕,你會感到恐懼;如果你預測結果會很好,你會感到興奮。所以,預測然後行動以完成這些預測的能力,產生了相當于情感的東西。
因此,足夠聰明的 AI 系統,能夠推理和規劃并擁有世界模型的 AI 系統,将具有情感。
Q:這将產生廣泛的影響,可能會改變學習方式,改變一切,讓每個人都相處得更好。但是,仇恨、功能障礙、孤獨等問題仍然存在,你怎麼看待這些事情?
LeCun:我不是億萬富翁,我首先是一名科學家,如果沒有某種程度的科學誠信,我無法面對鏡子中的自己。科學的全過程就是你必須接受你可能會錯的事實,正确的想法來自于多種觀點的碰撞和不同意的人。
我們看看現實,人們説 AI 會摧毀社會,因為我們會充斥着虛假信息和生成的仇恨言論等等,但我們根本沒有看到這種情況。事實上,人們制造仇恨言論,制造虛假信息,他們試圖以各種方式傳播,但我們最好的防御措施就是 AI 系統。
我們需要的是更多的 AI 技術掌握在好人手中,而不是壞人手中。
語言模型很難再提升,未來每個人都會有 AI 助手
Q:你剛才説自回歸 LLM 正在達到性能上限,下一代人工智能系統和大語言模型有什麼不同?
LeCun:過去有些人認為,像 GPT 這樣的 LLM,只要擴大規模,在更多的數據上進行訓練,用更多的計算能力,人類水平的智能就會從中產生。我從來不相信這個概念。llya 曾經是這個概念的著名信徒,不過他也放棄了。
這些系統的性能已經達到了上限,因為我們基本上已經用盡了所有公開可用的文本數據來訓練這些 LLM,不可能再得到比這更多的數據了。所以人們開始生成合成數據之類的東西,但這樣不可能将性能提高 10 倍或 100 倍。
LLM 被稱為大型語言模型,因為它基本上是被訓練來預測文本中的下一個單詞,這些系統實際上是在預測單詞的概率分布,你可以用它來生成文本。這就是自回歸部分。
但無法保證所產生的單詞序列會有意義,有可能會產生胡言亂語或編造東西。所以很多行業都在努力尋找一種方法,基本上是通過人類參與來訓練系統,讓它們執行特定任務而不產生無意義的内容。
我們正在研究的是下一代人工智能系統,它不僅僅基于預測下一個單詞。
當它們不知道答案時,它們可以查詢數據庫或搜索引擎。你需要有能夠檢測系統是否知道答案的系統,然後可能生成多個答案,然後你知道挑選哪些答案是好的。
Q:上周 Meta 發布了 Meta Motivo,它可以制造看起來更像活人的數字人。這好像是在嘗試讓元宇宙再次成為現實,你能告訴我它到底是什麼嗎?因為你們在這些事情上投入了大量資金。
LeCun:我現在正戴着智能眼鏡,我們最終将圍繞智能眼鏡或其他智能設備展開工作,它們将配備人工智能助手,我可以通過它跟 AI 交流。這些設備将在我們的日常生活中協助我們,我們希望這些系統具有人類水平的智能水平,甚至在許多方面具有超人的智能水平。
但我們離那個目标還很遠。不是幾個世紀,也可能不是幾十年,但可能是幾年。LLM 可以通過律師考試,或者通過一些大學考試。但家用機器人還不能完全打掃房子,清理餐桌,洗碗。我們不是不能制造機器人,而是無法讓它們足夠聰明、讓它們理解物理世界。事實證明,物理世界對 AI 系統來説要復雜得多。
這些系統最終将能夠規劃一系列行動以實現特定目标,這就是我們所説的Agent。一個 Agent 系統是一個可以規劃一系列行動以達到特定結果的系統。現在大家談論的代理系統實際上并沒有這樣做。
Q:Meta 還在開發AI 搜索引擎,我猜你們是想超越谷歌搜索?
LeCun:一個智能助手的重要組成部分當然是搜索。你搜索事實,并鏈接到這些事實的來源。這樣,與你交談的人就會信任這個結果。所以搜索引擎是完整 AI 系統的一個組成部分。
但歸根結底,目标不是直接與谷歌競争,而是服務于那些想要 AI 助手的人。
未來每個人都會随時有一個AI 助手,這将成為一個新的計算平台。以前我們稱之為元宇宙,但這些眼鏡最終會有顯示器,增強現實顯示器。已經有了這方面的演示,比如獵户座項目。我們現在可以把它做得足夠便宜,可以出售了。
Q:現在人力助手的成本要低得多。目前,Meta 預計将花費 380 億至 400 億美元,谷歌表示将超過 510 億美元,分析師預測,微軟的支出将接近 900 億美元。你會擔心被超越嗎?你認為這是一項值得的投資嗎?
LeCun:我不這麼認為。我沒有在 Facebook 成立之初就接受這份工作,所以不要問我這個問題。但這是一個長期的投資,你需要基礎設施才能以合理的速度為越來越多的人運行這些 AI 助手。
我不認為這筆投入是冤枉的,因為将來會有很多人每天使用這些 AI 系統,在一兩年内會有很大增長。而這些系統如果更強大,就會更有用,同時計算成本就越高。所以這項投資是基礎設施的投資。
Llama 就像 AI 界的 Linux
Q:Meta 最近發布了 Llama3.3,你覺得它的主要作用是什麼?和其他公司的封閉模型對比起來有什麼特點?
LeCun:Llama 和大多數其他模型的主要區别在于它是免費的和開源的。從技術上來説,開源軟體就是帶有源代碼的軟體,你可以修改它、自己編譯,你可以免費使用。而且,在大多數許可證下,如果你對它做了一些改進,并且你想在一個產品中使用它,你必須以源代碼的形式發布你的改進,這樣就使得開源項目能夠非常快速地發展,多年來這一直是一種成功的軟體分發方式。
整個互聯網都運行在開源軟體上,世界上大多數計算機都運行在Linux上,除了少數桌面電腦和一些 iPhone 之外,其他所有的計算機都是這樣。Linux 非常成功,原因是它是一個平台,人們可以修改它,讓它更安全、更可靠等等,讓它能夠在各種硬體上運行。這并不是設計出來的,而是市場力量自然推動的。
在 AI 領網域,判斷某物是否為開源變得復雜,因為構建 AI 系統首先要收集訓練數據,其次要在這些訓練數據上訓練所謂的基礎模型。那個訓練代碼和數據通常是不公開的。例如,Meta 不公開 Llama 模型的訓練數據或大部分訓練代碼。
然後你可以分發訓練好的基礎模型,比如 Llama。它開源了代碼,你可以在任何地方運行該系統,并且還可以進行微調。你不需要支付費用給 Meta,也不需要向他們詢問,你可以自己做這些事情。但這有一些限制,主要是由于法律環境的原因。
大型模型很多都是封閉的,比如 OpenAI、Anthropic 和 Google,這可能是因為他們想獲得商業優勢,比如你想直接從這種類型的產品中獲得收入,并且你認為自己或者可以領先于技術,那麼可能就有理由保持封閉。
但對于 Meta 來説,Meta 的 AI 工具是一整套體驗的一部分,這些體驗都是靠廣告收入來資助的,所以 AI 不是主要的收入來源。另一方面,我們認為平台會發展得更快,事實上我們已經看到了 Llama 平台促進了更多的創新。有很多創新是我們沒有想過、或者我們沒有辦法做到,但人們有了 Llama 模型之後,他們能夠進行實驗,然後提出新的想法。
Q:有很多人批評説 Meta 之前在 AI 競争裏面落後,開源模型是你們用來追趕的工具,你怎麼看?
LeCun:首先,你必須意識到,除了谷歌之外,這個行業裏的每個人在構建人工智能系統時都在使用一個名為PyTorch的開源軟體平台。這個平台主要由 Meta 開發,後來 Meta 把所有權轉讓給了 Linux 基金會,所以現在它不再屬于 Meta 了。OpenAI 的所有人都使用它,所以沒有 Meta,GPT 和 Claude 等模型或許發展不到今天的程度。
像 GPT 這樣的工具,其中使用的底層技術是在不同地方發明的。OpenAI 在它們不那麼保密的時候做出了一些貢獻,它們在過去三年左右的時間裏逐漸變得保守。谷歌當然也做了一些貢獻,但從未真正開放過。他們試圖秘密地推動這項技術。
我認為 Meta 是一個相當大的研究機構,我們的研究組織叫做FAIR,過去叫 Facebook Research,現在主要做基礎研究。我們有大約 500 人在那裏工作。我們正在研究的實際上是下一代人工智能系統,超越了 LLMs,超越了大語言模型,超越了聊天機器人。這就是所謂的大概念模型,這是一個特定的部分。
更安全的 AI 系統可以提前設計
Q:你説過專有 AI 模型集中在少數幾家公司手中是一個巨大的危險。開源模型的批評者也擔心,不良行為者可能會利用它們來傳播錯誤信息、網絡戰、生物恐怖主義等。談談這兩者之間的區别。Meta 在防止這些情況發生的方面有什麼作為?
LeCun:這是一個巨大的争論。我們第一次發布 Llama 是相當近期的事情,第一個 Llama 不是開源的。你必須請求許可,你必須證明你是一名研究人員。這是因為法律環境不确定,我們不知道人們會用它做什麼。
所以我們進行了幾個月的内部讨論,每周兩個小時,有 40 個人參與。關于安全性、法律環境等各種問題進行了非常嚴肅的讨論。然後在某個時候,馬克決定開放 Llama 2 的源代碼。這是在 2023 年夏天完成的。從那時起,它基本上完全推動了整個行業。
為什麼它比這些公司控制的專有模型更安全?因為有更多的人在關注它,所以有更多的人在為各種事情微調它。
有一個問題是,可能有很多人懷着惡意使用它。所以在 Llama 團隊中,曾經對所有我們發布的系統進行 Red Team 測試,确保它們至少在發布時基本上是安全的。
我們甚至最初将 Llama 2 給了一群黑客,在 Defcon 上讓他們嘗試做壞事,比如嘗試入侵系統之類的,這被稱為白帽。結果是,在過去的将近兩年裏,我們還沒有意識到任何真正糟糕的事情發生在我們分發的任何模型上。
Q:如果你的願景是 AI 成為所有人類知識的寶庫,那麼所有的人類知識都必須可用于訓練這些模型。而其中大部分要麼沒有數字化,要麼數字化了但沒有公開。
LeCun:比如法國國家圖書館的全部内容都數字化了,但不可用于訓練。我并不是在談論版權作品。我的家族來自布列塔尼,法國西部。那裏的傳統語言已經瀕臨消失,現在只有大約 3 萬人每天説這種語言。
如果你想讓未來的 LLM 説布列塔尼語,就需要有足夠的訓練數據。你将從哪裏得到這些數據?你會得到文化非營利組織的幫助,他們收集他們擁有的所有東西。也許政府會幫助他們。但他們可能會説,我想讓你們的系統説布列塔尼語,但我不想就這麼把我的數據給你。
我認為最好的方法是訓練一個 AI 系統,一個分布式的全球 AI 系統倉庫,使用各地的數據為全球系統做出貢獻。你不需要復制數據。
對于 Linux 來説,實際上它主要是由那些公司員工支持的,這些公司告訴他們實際上要分發他們的貢獻。你可以有一個類似的系統,每個人都可以為這個全球模型做出貢獻,這是每個人的 AI。
Linux 你是不用付費的,但如果你買了一個運行 Linux 的小部件,比如安卓手機或者車裏的觸摸屏,你為購買的小部件付費。AI 也是如此,基礎模型将會是開源且免費的。
現在,它确實感覺像是少量的力量在操控着一切。這個願景很美好,但目前并沒有很好地實現。不過,在我看來,這是不可避免的。
Q:談到辯論,你喜歡與其他 AI 教父進行公開辯論,比如你的獲獎同行 Jeffrey Hinton 和 Yoshua Bengio。他們都對 AI 的潛在危險發出了警告。
LeCun:我不認為需要對研發進行監管。我在加州法案 SB 1047 上與他們產生了分歧。Hinton 和 Bengio 都支持這個法案,而我則反對。我認為監管研發會給 AI 系統帶來災難性的後果。我説,存在風險是一種幻覺,是一小撮偏執的智庫所推動的。
但 Hinton 和 Bengio 并不偏執。Hinton 剛剛因為他的工作獲得了諾貝爾獎。另外,加州州長否決了這個法案,但他正在與斯坦福大學的教授合作對其進行修訂。
我之所以稱其為胡説八道,是因為我認為這些危險已經被誇大了,以至于變得扭曲。一些人説 AI 會在五個月内殺死我們所有人,這顯然是錯誤的。
Q:讓我們來談談 AGI(通用人工智能),以及我們距離它還有多遠。當人們聽到這個時,他們會想到《終結者》或《我,機器人》之類的情節。
LeCun:Hinton 和 Bengio 認為 AGI 的時間表可能是五年,而我認為可能需要十年甚至更長。
我不知道會是什麼時候,但我個人認為最早可能在五到六年後,但可能更接近十年。因為這比我們想象的要難得多,歷史上人們總是低估 AI 的發展難度。
我們現在還沒有達到人類水平的智能,甚至不知道如何用 AI 系統做很多事情,比如制造家用機器人或五級自動駕駛汽車。在我們找到新的方法之前,我們甚至還沒有走上實現人類水平智能的道路。
一旦我們有了一個藍圖和一些可信的演示,證明我們可能有一條通往人類水平智能的道路,我們就會知道如何使其安全。這就像在 20 世紀 20 年代,有人告訴你幾十年後我們将能夠以接近音速的速度飛行數百萬英裏橫跨大西洋,你會説:" 天哪,你怎麼知道這安全?" 但渦輪噴氣機最終被證明是非常可靠的。
所以,讓 AI 安全意味着以安全的方式設計 AI 系統。但在我們設計出來之前,我們無法使其安全。
Q:你似乎不擔心 AI 會想要統治人類。你説當前的 AI 比家貓還笨。無論 AI 是否真的想要統治我們,我們是否應該對 AI 和 AI 研發施加一些限制?
LeCun:我認為,對于研發來説,不需要任何限制。但如果你想推出一個家用機器人,你可能會希望硬編碼一些規則,在系統構建時嵌入遵循法律,比如當有人在場時,機器人不能拿着刀亂揮。
當前 AI 系統的設計在某種程度上是固有不安全的。你需要訓練它們按照你的意願行事。我提出了一種稱為目标驅動的另一種架構,AI 系統基本上只是為了實現一個目标而存在,不能做任何其他事情,只能在這個目标的約束下行動。
Q:現在很多人,包括 Hinton 和 Benjo 在内,都支持一封由 OpenAI 現任和前任員工籤名的信,呼籲 AI 公司的員工有權警告技術的嚴重風險,你沒有支持那封信。你是怎麼看待模型安全這個問題的呢?
LeCun:我不是這個意思。比如像禁止在公共場所使用大規模人臉識别這樣的措施是件好事 。
還有一些措施,比如未經允許就改變某人在視頻中的面部,這基本上已經是合法的,我們擁有這些工具并不意味着它們就不違法。可能需要針對這些行為制定定特定的規則,但我對此沒有意見。
我對 AI 本質上危險以及需要監管研發的觀點有異議,我認為這是适得其反的。在未來,我們将擁有那些我認為對未來民主至關重要的開源平台,那些規則将會适得其反,它們會讓開源變得太冒險,以至于任何公司都不敢分發,這樣這些私人公司将控制一切。
如果一切都來自美國西海岸的三家公司,我們都説着同樣的語言,有着同樣的文化,這完全不可接受。
他們想要的是開放的平台,然後可以針對任何文化、價值體系或興趣中心進行微調,這樣全世界的用户都有選擇,他們不必使用三個助手,他們可以使用其他的。
我們在印度與幾個組織合作,下一個版本的 Llama 能夠説印度所有的 22 或 29 種官方語言,這甚至還不足以涵蓋印度的所有語言,因為印度有 700 種語言,其中大部分是口語,沒有書面語。現在我們有技術可以讓聊天機器人實際上處理純粹的口語,這是令人驚嘆的。
我們在越南也做了類似的努力,我們看到全世界的人們都在調整這些模型,并将其用于各種用途。我認為我們需要一種更自覺的全球合作夥伴關系,這些系統從一開始就作為基礎模型,能夠説世界上所有的語言并理解所有的文化,這樣的話,這些努力就會更容易成功,我們可以為各種應用構建專門的系統。
參考鏈接:
[ 1 ] https://www.youtube.com/watch?v=UmxlgLEscBs
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>