Transformer作者對話Jeff Dean

今天小編分享的科學經驗：Transformer作者對話Jeff Dean，歡迎閲讀。

谷歌兩位大佬回應一切：從 PageRank 到 AGI 的 25 年。

現任首席科學家Jeff Dean、出走又回歸的 Transformer 作者Noam Shazeer，與知名播客主持人 Dwarkesh Patel 展開對談。

視頻剛發幾個小時，就有 20 萬 + 網友在線圍觀。

兩人都是谷歌遠古員工，經歷了從 MapReduce 到 Transformer、MoE，他們發明了很多改變整個互聯網和 AI 的關鍵技術。

Noam Shazeer 卻談到當初入職谷歌只是為了撈一筆就跑，沒想到成了改變世界的那個人。

在兩個多小時的談話中，他們透露了 AI 算力的現狀：

單個數據中心已經不夠了，Gemini 已經在跨多個大城市的數據中心異步訓練。

也對當下最流行的技術趨勢做了探讨：

推理算力 Scaling 還有很大空間，因為與 AI 對話比讀書仍然便宜 100 倍

未來的模型架構會比 MoE 更靈活，允許不同的團隊獨立開發不同的部分

……

網友們也在邊聽邊 po 發現的亮點：

比如在内存中存儲一個巨大的 MoE 模型的設想。

以及 " 代碼中的 bug 可能有時會對 AI 模型有正面影響 "。

随着規模的擴大，某些 bug 正是讓研究人員發現新突破的契機。

推理算力 Scaling 的未來

很多人覺得 AI 算力很貴，Jeff Dean 不這麼認為，他用讀書和與 AI 讨論一本書來對比：

當今最先進的語言模型每次運算的成本約為 10-18 美元，這意味着一美元可以處理一百萬個 token。

相比之下，買一本平裝書的成本大約相當于每 1 美元買 1 萬個 token（單詞數換算成 token）。

那麼，與大模型對話就比讀書便宜約 100 倍。

這種成本優勢，為通過增加推理算力來提升 AI 的智能提供了空間。

從基礎設施角度來看，推理時間計算的重要性增加可能會影響數據中心規劃。

可能需要專門為推理任務定制硬體，就像谷歌初代 TPU一樣，它最初是為推理的目的設計，後來才被改造為也支持訓練。

對推理的依賴增加可能意味着不同的數據中心不需要持續通信，可能導致更分布式、異步的計算。

在訓練層面，Gemini 1.5 已經開始使用多個大城市的計算資源，通過高速的網絡連接将不同數據中心中的計算結果同步，成功實現了超大規模的訓練。

對于大模型來説，訓練每一步的時間可能是幾秒鍾，因此即使網絡延遲有 50 毫秒，也不會對訓練產生顯著影響。

到了推理層面，還需要考慮任務是否對延遲敏感。如果用户在等待即時響應，系統需要針對低延遲性能進行優化。然而，也有一些非緊急的推理任務，比如運行復雜的上下文分析，可以承受更長的處理時間。

更靈活和高效的系統可能能夠異步處理多個任務，在提高整體性能的同時最大限度地減少用户等待時間。

此外，算法效率的提升，如使用較小的草稿（Draft）模型，可以幫助緩解推理過程中的瓶頸。在這種方法中，較小的模型生成潛在的 token，然後傳遞給較大的模型進行驗證。這種并行化可以顯著加快推理過程，減少一次一個 token 的限制。

Noam Shazeer 補充，在進行異步訓練時，每個模型副本會獨立進行計算，并将梯度更新發送到中央系統進行異步套用。雖然這種方式會使得模型參數略有波動，理論上會有影響，但實踐證明它是成功的。

相比之下，使用同步訓練模式能提供更加穩定和可重復的結果，這是許多研究者更加青睐的模式。

在談到如何保證訓練的可重復性時，Jeff Dean 提到一種方法是記錄操作日志，尤其是梯度更新和數據批次的同步記錄。通過回放這些操作日志，即使在異步訓練的情況下，也能夠确保結果的可重復性。這種方法可以讓調試變得更加可控，避免因為環境中的其他因素導致結果不一致。

Bug 也有好處

順着這個話題，Noam Shazeer 提出一個有意思的觀點：‍

訓練模型時可能會遇到各種各樣的 bug，但由于噪音的容忍度，模型可能會自我調整，從而產生未知的效果。

甚至有的 bug 會產生正面影響，随着規模的擴大，因為某些 bug 在實驗中可能會表現出異常，讓研究人員發現新的改進機會。

當被問及如何在實際工作中調試 bug 時，Noam Shazeer 介紹他們通常會在小規模下進行大量實驗，這樣可以快速驗證不同的假設。在小規模實驗中，代碼庫保持簡單，實驗周期在一到兩個小時而不是幾周，研究人員可以快速獲得反饋并做出調整。

Jeff Dean 補充説，很多實驗的初期結果可能并不理想，因此一些 " 看似不成功 " 的實驗可能在後期仍然能夠為研究提供重要的見解。

與此同時，研究人員面臨着代碼復雜性的問題：雖然不斷疊加新的改進和創新是必要的，但代碼的復雜性也會帶來性能和維護上的挑戰，需要在系統的整潔性和創新的推進之間找到平衡。

未來模型的有機結構

他們認為，AI 模型正在經歷從單一結構向模塊化架構的重要轉變。

如 Gemini 1.5Pro 等模型已經采用了專家混合（Mixture of Expert）架構，允許模型根據不同任務激活不同的組件。例如在處理數學問題時會激活擅長數學的部分，而在處理影像時則會激活專門處理影像的模塊。

然而，目前的模型結構仍然較為僵化，各個專家模塊大小相同，且缺乏足夠的靈活性。

Jeff Dean 提出了一個更具前瞻性的設想：未來的模型應該采用更有機的結構，允許不同的團隊獨立開發或改進模型的不同部分。

例如，一個專注于東南亞語言的團隊可以專門改進該領網域的模塊，而另一個團隊則可以專注于提升代碼理解能力。

這種模塊化方法不僅能提高開發效率，還能讓全球各地的團隊都能為模型的進步做出貢獻。

在技術實現方面，模型可以通過蒸餾（Distillation）技術來不斷優化各個模塊。這個過程包括将大型高性能模塊蒸餾為小型高效版本，然後在此基礎上繼續學習新知識。

路由器可以根據任務的復雜程度，選擇調用合适規模的模塊版本，從而在性能和效率之間取得平衡，這正是谷歌 Pathway 架構的初衷。

這種新型架構對基礎設施提出了更高要求。它需要強大的 TPU 集群和充足的高帶寬内存（HBM）支持。盡管每個調用可能只使用模型的一小部分參數，但整個系統仍需要将完整模型保持在内存中，以服務于并行的不同請求。

現在的模型能将一個任務分解成 10 個子任務并有 80% 的成功率，未來的模型能夠将一個任務分解成 100 或 1000 個子任務，成功率達到 90% 甚至更高。

"Holy Shit 時刻 "：準确識别貓

回過頭看，2007 年對于大模型（LLMs）來説算得上一個重要時刻。

當時谷歌使用 2 萬億個 tokens 訓練了一個 N-gram 模型用于機器翻譯。

但是，由于依賴磁盤存儲 N-gram 數據，導致每次查詢需大量磁盤 I/O（如 10 萬次搜索 / 單詞），延遲非常高，翻譯一個句子就要 12 小時。

于是後來他們想到了内存壓縮、分布式架構以及批處理 API 優化等多種應對舉措。

内存壓縮：将 N-gram 數據完全加載到内存，避免磁盤 I/O；

分布式架構：将數據分片存儲到多台機器（如 200 台），實現并行查詢；

批處理 API 優化：減少單次請求開銷，提升吞吐量。

過程中，計算能力開始遵循摩爾定律在之後逐漸呈現爆發式增長。

從 2008 年末開始，多虧了摩爾定律，神經網絡真正開始起作用了。

那麼，有沒有哪一個時刻屬于 "Holy shit" 呢？（自己都不敢相信某項研究真的起作用了）

不出意外，Jeff 談到了在谷歌早期團隊中，他們讓模型從油管視頻幀中自動學習高級特征（如識别貓、行人），通過分布式訓練（2000 台機器，16000 核）實現了大規模無監督學習。

而在無監督預訓練後，模型在監督任務（ImageNet）中性能提升了 60%，證明了規模化訓練和無監督學習的潛力。

接下來，當被問及如今谷歌是否仍只是一家信息檢索公司的問題，Jeff 用了一大段話表達了一個觀點：

AI 履行了谷歌的原始任務

簡單説，AI 不僅能檢索信息，還能理解和生成復雜内容，而且未來想象力空間巨大。

至于谷歌未來去向何方，" 我不知道 "。

不過可以期待一下，未來将谷歌和一些開源源代碼整合到每個開發者的上下文中。

換句話説，通過讓模型處理更多 tokens，在搜索中搜索，來進一步增強模型能力和實用性。

當然，這一想法已經在谷歌内部開始了實驗。

實際上，我們已經在内部代碼庫上為内部開發人員進行了關于 Gemini 模型的進一步培訓。

更确切的説法是，谷歌内部已經達成25% 代碼由 AI 完成的目标。

在谷歌最快樂的時光

有意思的是，這二位還在對話中透露了更多與谷歌相關的有趣經歷。

對 1999 年的 Noam 來説，本來沒打算去谷歌這樣的大公司，因為憑直覺認為去了也可能無用武之地，但後來當他看到谷歌制作的每日搜索量指數圖表後，立馬轉變了想法：

這些人一定會成功，看起來他們還有很多好問題需要解決

于是帶着自己的 " 小心思 " 就去了（主動投了簡歷）：

掙一筆錢，然後另外開開心心去搞自己感興趣的 AI 研究

而加入谷歌後，他就此結識了導師 Jeff（新員工都會有一個導師），後來兩人在多個項目中有過合作。

談到這裏，Jeff 也插播了一條他對谷歌的認同點：

喜歡谷歌對 RM 願景（響應式和多模态，Responsive and Multimodal）的廣泛授權，即使是一個方向，也能做很多小項目。

而這也同樣為 Noam 提供了自由空間，以至于當初打算 " 幹一票就跑 " 的人長期留了下來。

與此同時，當話題轉向當事人 Jeff 時，他的一篇關于平行反向傳播的本科論文也被再次提及。

這篇論文只有 8 頁，卻成為 1990 年的最優等本科論文，被明尼蘇達大學圖書館保存至今。

其中，Jeff 探讨了兩種基于反向傳播來平行訓練神經網絡的方法。

模式分割法（pattern-partitioned approach）：将整個神經網絡表示在每一個處理器上，把各種輸入模式劃分到可用的處理器上；

網絡分割法（network-partitioned approach）流水線法（pipelined approach）：将神經網絡的神經元分布到可用的處理器上，所有處理器構成一個相互通信的環。然後，特征通過這個 pipeline 傳遞的過程中，由每個處理器上的神經元來處理。

他還構建了不同大小的神經網絡，用幾種不同的輸入數據，對這兩種方法進行了測試。

結果表明，對于模式分割法，網絡大、輸入模式多的情況下加速效果比較好。

當然最值得關注的還是，我們能從這篇論文中看到 1990 年的 " 大 " 神經網絡是什麼樣：

3 層、每層分别 10、21、10 個神經元的神經網絡，就算很大了。

論文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff 還回憶道，自己測試用的處理器，最多達到了 32 個。

（這時的他應該還想不到，12 年後他會和吳恩達、Quoc Le 等人一起，用 16000 個 CPU 核心，從海量數據中找出貓。）

不過 Jeff 坦言，如果要讓這些研究成果真正發揮作用，" 我們需要大約 100 萬倍的計算能力 "。

後來，他們又談到了 AI 的潛在風險，尤其是當 AI 變得極其強大時可能出現的反饋循環問題。

換句話説，AI 通過編寫代碼或改進自身算法，可能進入不可控的加速改進循環（即 " 智能爆炸 "）。

這将導致 AI 迅速超越人類控制，甚至產生惡意版本。就像主持人打的比方，有 100 萬個像 Jeff 這樣的頂尖程式員，最終變成 "100 萬個邪惡的 Jeff"。

（網友）：新的噩夢解鎖了哈哈哈！

最後，談及在谷歌最快樂的時光，二人也分别陷入回憶。

對 Jeff 來説，在谷歌早期四五年的日子裏，最快樂的莫過于見證谷歌搜索流量的爆炸式增長。

建造一個如今 20 億人都在使用的東西，這非常不可思議。

至于最近，則很開心和 Gemini 團隊構建一些，即使在 5 年前人們都不敢相信的東西，并且可以預見模型的影響力還将擴大。

而 Noam 也表達了類似經歷和使命，甚至喜滋滋 cue 到了谷歌的 " 微型廚房區網域 "。

據介紹，這是一個大約有 50 張桌子的特别空間，提供咖啡小吃，人們可以在這裏自由自在閒聊，碰撞想法。

一説到這個，連 Jeff 也手舞足蹈了（doge）：

Okk，以上為兩位大佬分享的主要内容。

參考鏈接 :

[ 1 ] https://x.com/JeffDean/status/1889780178983031035

[ 2 ] https://x.com/dwarkesh_sp/status/1889770108949577768