黃仁勳對話Transformer論文作者：世界需要比Transformer更好的東西

今天小編分享的互聯網經驗：黃仁勳對話Transformer論文作者：世界需要比Transformer更好的東西，歡迎閲讀。

文 | 甲子光年，作者｜蘇霍伊、劉楊楠，編輯｜甲小姐、王博

發自美國聖何塞（San Jose）GTC 現場

今年的英偉達 GTC，英偉達創始人 &CEO 黃仁勳在主題演講之外，公開的活動就只有一場圓桌讨論—— Transforming AI。

當地時間早上 7:00，距離這場圓桌讨論開始還有 4 個小時，就有觀眾來到了聖何塞 McEnery 會議中心。圓桌讨論開始前 1 個小時，門口已經排起長龍。

GTC 現場，圖片來源：「甲子光年」拍攝

觀眾如此關注這場圓桌讨論的原因除了黃仁勳之外，還有英偉達預告的重磅嘉賓：Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser 和 Illia Polosukhin。

他們都曾就職于 Google，也是論文《Attention Is All You Need（注意力就是你所需要的一切）》的作者，被稱為—— "Transformer 論文八子 "，而這篇論文也被稱為 " 夢開始的地方 "。

2017 年，Google 團隊發表了一篇文章《Attention Is All You Need》。這篇開創性的論文介紹了基于 Transformer 的深度學習架構。Transformer 徹底改變了自然語言處理（NLP）領網域，它的自注意力機制也被廣泛應用于計算機視覺等其他領網域，并對 AI 研究產生了深遠影響，成為了 AI 發展史上的一個裏程碑。截至今天，這篇論文的被引用次數已高達 112576。

黃仁勳也是這篇論文的 " 受益者 " 之一。

如果説 ChatGPT 是席卷 AI 行業的一場 " 風暴 "，那麼 Transformer 就是 " 扇動翅膀 " 的那只蝴蝶；如果説英偉達是 AI 時代的 " 賣鏟人 "，那麼這篇論文帶來的巨大算力需求就是其背後的底氣。

俗話説 " 吃水不忘挖井人 "，黃仁勳這次把這篇論文的七位作者（Niki Parmar 家有急事未能到場參會）都邀請到了現場，在此之前，他們從未以這樣的形式出現在同一場合解讀 Transformer。

Transforming AI 圓桌讨論到場嘉賓及職務，圖片來源：英偉達 GTC

值得一提的是，到場的七位嘉賓中，除了 Lukasz Kaiser 在 OpenAI 擔任工程師，其他人都在創業。

" 這年頭大家創業的公司名稱幾乎都包含‘ AI ’，" 黃仁勳在介紹到場嘉賓時説，" 其實我們 NVIDIA 的名字也包含‘ AI ’，只不過字母順序反了。我一直都知道我需要字母 A 和字母 I。" 黃仁勳的幽默引發了全場的笑聲。

面對七位嘉賓，黃仁勳像一位綜藝節目主持人一樣問了很多直白樸素的問題：

七位嘉賓分别回答了相關問題，不過 Cohere 聯合創始人 &CEO Aidan Gomez 説出了一句意味深長的話：" 我們希望世界可以誕生比Transformer 更好的東西。"

01 "RNN 是蒸汽機，Transformer 是内燃機 "

" 你們能來真的太好了！" 黃仁勳説，" 今天我們所享受的一切，都能追溯到 Transformer 出現的那一刻，我們從大量的數據中學習，以一種有序的方式，有序的數據以及空間數據，但從大量的數據中學習來找到關系和模式，并創建這些巨大的模型是非常具有變革性的。"

這場圓桌讨論由于觀眾太過熱情，導致開始的時間有些推遲，不過黃仁勳希望現場氛圍更熱烈，他告訴七位嘉賓：" 今天坐到這裏，請大家積極争搶發言的機會，在這裏沒有什麼話題是不能談的，你們甚至可以椅子上跳起來讨論問題。"

随着黃仁勳抛出第一個問題 " 是什麼驅動你們創造出了 Transformer"，圓桌讨論正式開始。

Transformer 的最初目标是解決一個樸素的問題——機器翻譯。

NEAR Protocol 聯合創始人 Illia Polosukhin 表示：" 我們通常遇到問題就會去 Google 搜索，但如果需要在它反饋回來的‘成噸’網頁中做快速處理，當時的 RNN（循環神經網絡）是無法做到的。因為它們需要逐個單詞地處理文本。"

Inceptive 聯合創始人 &CEO Jakob Uszkoreit 回憶，他們最初的目标是解決處理序列數據（如文本、音頻等）的問題。在一個特定時期，由于生成訓練數據的速度遠超過訓練復雜神經網絡架構的能力，因此在實際應用中更傾向于使用簡單且訓練速度更快的模型，如以 n-gram 為輸入特征的前饋神經網絡。

" 在擁有大量訓練數據的情況下，更簡單的模型架構（例如，僅包含前饋網絡的模型）在處理大規模數據時表現得比更復雜的 RNN 和 LSTM 更好，因為它們的訓練速度更快。"Jakob Uszkoreit 説。

Character.AI 聯合創始人 &CEO Noam Shazeer 當時主要關注在自注意力（self-attention）機制的引入和模型的擴展性上，" 我們在 2015 年左右就注意到這些 Scaling law（規模法則）。"

他還幽默地表示："RNN 就像蒸汽機一樣，而 Transformer 模型則像内燃機。我們當然可以在坐在蒸汽機上完成工業革命，只不過‘屁股會燒很疼’，内燃機的效果則要好得多！"

Essential AI 聯合創始人 &CEO Ashish Vaswani 則更傾向讓模型自主學習并設計一個具有廣泛适用性的框架，他用之前在工作中遇到的兩個教訓闡述了自己的思考。

" 第一個教訓是，我們需要明白梯度下降（gradient descent）是一位出色的老師。"Ashish Vaswani 在研究機器翻譯時領悟道相比于自己去學習語言規則，讓梯度下降這種訓練模型的算法來處理會更高效。

" 第二個教訓是，可擴展的通用架構一定會勝利的。"談到這裏時，Ashish Vaswani 用了 " 苦澀的教訓 "（bitter lesson）的説法，即那些可以擴展并且具有通用性的架構最終會更勝一籌，" 能夠像 Transformer 一樣處理各種不同任務和數據類型的模型，一定會比專為特定任務設計的模型效果更好。"

OpenAI 技術團隊成員 Lukasz Kaiser 和 Sakana AI 聯合創始人 &CTO Llion Jones 也分享了他們對模型直觀性的看法，尤其是在機器翻譯領網域的應用。同時，他們也提到了如何通過消融實驗（移除模型的一部分）來改進模型性能。

《Attention is all you need》這個論文标題是 Llion Jones 想到的，他還透露，起标題時只是在做 " 消融術 " ( ablations ) 。

至于 Transformer 這個名字，則是由 Jakob Uszkoreit 提議的。他的理由非常直接，因為模型改變了他們處理數據的方式，所有的機器學習都是 "Transformer"，都是颠覆者。

Noam Shazee 提到他之前想過很多名字，比如 "Cargornet"（貨運網），但投票沒有通過。

" 還好被否決了。" 黃仁勳調侃了一句。

"Transformer" 這個名字體現了它的核心能力：能夠全面且廣泛地轉換數據。Transformer 完全抛棄了 RNN 的邏輯，由自注意力機制組成。這一點與人腦處理信息時的方式不謀而合。人腦在理解句子時能自然地忽略次要細節，更專注于關鍵信息。Transformer 就采用了類似的策略，能夠識别并理解序列數據中不同元素之間的相關性，從而提高數據處理的效率和準确性。

通過這個技術，模型能夠在處理文本、音頻等連續數據時，更加靈活、高效地調整信息，得到更準确、内容更豐富的結果。

Jakob Uszkoreit 還強調了 Transformer 模型的一個關鍵能力：它能夠在每一步處理時都全面轉換它正在處理的信息，而不是僅僅關注信息的一小部分。這種全方位的處理能力也是它命名為 "Transformer" 的原因之一。

Transformer 模型架構，圖片來源：《Attention is all you need》

Transformer 帶來的另一個重要創新是，能夠利用并行計算極大地加速深度學習模型的訓練過程。這為大規模預訓練模型的發展奠定了基礎，開啓了邁向通用人工智能（AGI）之路。

而 GPU 非常适合并行計算，擅長研發、生產 GPU 的英偉達由此成為了 AI 時代 " 賣鏟人 "。黃仁勳也從當年在小米手機活動上自稱的 " 米粉 "，變成了 AI 行業中幾乎所有人都想接近的 "AI 教主 "。

除了在自然語言處理領網域取得的成績，Transformer 技術還被廣泛應用于語音識别和計算機視覺等多個領網域，證明了其在處理各種序列數據上的通用性和有效性。正是這些創新的技術，推動了人工智能領網域的快速發展，讓我們能夠預見到一個與智能機器無縫交流的未來。

02 " 世界需要比 Transformer 更好的東西 "

Transformer 的問世，離不開這篇論文每一位作者的付出。

最初是 Jakob Uszkoreit 提出了用自注意力機制替換 RNN 的想法，并評估了這一想法；

Ashish Vaswani 與 Illia Polosukhin 一起設計并實現了第一個 Transformer 模型；

Noam Shazeer 提出了縮放點積注意力、多頭注意力和無參數位置表示；

Niki Parmar 在原始代碼庫和 tensor2tensor 中設計、實現、調優和評估了無數模型變體；

Llion Jones 嘗試了新型模型變體，他主要負責最初的代碼庫，以及高效推理和可視化；

Lukasz Kaiser 和 Aidan Gomez 花費了無數漫長的時間設計和實現了 tensor2tensor 的各個部分，取代了早期的代碼庫，加快了研究進程。

現在，Transformer 創造者的目光已經不再局限于 Transformer。他們在不同的領網域，共同探讨着下一步的 AI 走向。

" 世界需要比 Transformer 更好的東西（the world needs something better than Transformers）。"Aidan Gomez 語氣很堅定。

他認為，如果 Transformer 是他們能做到的極致，" 這會很可悲 "，但他話鋒一轉又説道：" 雖然提交報告的第二天起我就這麼認為了。我希望它能被其他好 10 倍的框架取代，這樣每個人都能擁有更好 10 倍的模型！"

目前，Transformer 的内存方面存在許多效率低下的問題，且許多架構組件從一開始就保持不變，應該 " 重新探索、重新考慮 "。例如，一個很長的上下文會變得昂貴且無法擴展。此外，" 參數化可能不必要地大，我們可以進一步壓縮它，我們可以更頻繁地共享權重——這可能會将事情降低一個數量級。"

Jakob Uszkoreit 進一步解釋道："未來重點要思考的是如何分配資源，而不是一共消耗了多少資源。我們不希望在一個容易得問題上花太多錢，或者在一個太難的問題上花太少而最終得不到解決方案。"

" 例如‘ 2+2=4 ’，如果你正确地将他輸入到這個模型中，它就會使用一萬億個參數。所以我認為自适應計算是接下來必須出現的事情之一，我們知道在特定問題上應該花費多少計算資源。"Illiya Polosukhin 補充。

Lukasz Kaiser 對此也有思考，他認為，根本性問題在于，哪些知識應該内置于模型之中，哪些知識應該置于模型之外？" 是使用檢索模型嗎？RAG（Retrieval-Augmented Generation）模型就是一個例子。"

同樣地，這也涉及到推理問題，即哪些推理任務應該通過外部的符号系統來完成，哪些推理任務應該直接在模型内部執行。這在很大程度上是一個關于效率的讨論。我确實相信，大型模型最終會學會如何進行‘ 2+2 ’這樣的計算，但如果你要計算‘ 2+2 ’，卻通過累加數字來進行，那顯然是低效的。"

黃仁勳回應道：" 如果 AI 只需要計算 2+2，那麼它應該直接使用計算器，用最少的能量來完成這個任務。"

" 确實如此，但我同樣确信在座的各位所研發的人工智能系統都足夠智能，能夠主動使用計算器，"Noam Shazeer 説，" 目前全球公共產品（GPP）正是這樣做的。我認為當前的模型太過經濟實惠，規模也還太小。它之所以便宜，是因為像英偉達這樣的技術，感謝它的產出。"

此前 Noam Shazeer 在接受采訪時就認為，AGI 是很多 AI 初創企業的目标。但他創業的真正原因是想推動技術發展，用技術攻克難題，如醫學上的疑難雜症。他指出，AI 能加速許多研究的進程，與其直接研究醫學，不如研究 AI。

他在圓桌讨論現場也表達了類似的觀點："如果你觀察一個擁有五千億參數的模型，并且每個 token 進行一萬億次計算，那就大概是 1 美元百萬 token，這比外出購買一本平裝書并閲讀的成本要便宜 100 倍。我們的應用程式在價值上比巨型神經網絡上的高效計算高出百萬倍或更多。我的意思是，它們無疑比治愈癌症等事情更有價值，但不僅如此。"

Ashish Vaswani 認為讓世界變得更 " 聰明 "，就是指——如何去獲得來自于世界的反饋，我們能否實現多任務、多線的并行。" 如果你真的想構建這樣一個模型，幫助我們設計這樣一個模型，這是一種非常好的方式。" 他説。

盡管其他嘉賓亦有共鳴，但 Aidan Gomez 認為大家對于 " 這一改變會在何時發生 " 持有不同的看法，" 人們對于它是否真的會發生也各有立場，但無一例外，大家都渴望看到進步，好像我們每個人的内心都住着一個小小的科學家，都想看到事情變得更好！"

在讨論中，Llion Jones 還提出了一個觀點：要想讓 AI 真正向前邁進，超越當前的技術模型，不僅僅是做得更好那麼簡單，" 你得做到顯著優秀，讓人一看就知道。" 在他看來，盡管技術上可能有更先進的模型存在，但當前的進展似乎還是停留在了原點。

Aidan Gomez 對此表示認同，他認為 Transformer 之所以受到追捧，不單單是因為它本身的優勢，更因為人們對它的熱情。" 兩者缺一不可。" 他解釋道，" 如果你沒能同時抓住這兩點，就很難推動整個社區前進。如果想要促成從一種架構向另一種架構的轉變，你确實需要拿出一些能夠激發大家興趣的東西。"

03 " 你不會希望錯過未來十年 "

那麼，生成式 AI 到底意味着什麼？

黃仁勳在現場分享道：" 生成式 AI，是一種全新的軟體，它也能夠創造軟體，它還依賴于眾多科學家的共同努力。想象一下，你給 AI ‘原材料’——數據，讓它們進入一棟‘建築’——我們稱之為 GPU，它就能輸出神奇的結果。它正在重塑一切，我們正在見證 AI 工廠的誕生。"

圓桌對話結束後，黃仁勳特意拿出 DGX-1 ——一款專為深度學習和 AI 研究設計的高性能計算平台，送給了 Ashish Vaswani，DGX-1 上面寫着一句話 "You transformed the world"（你改變了世界）。