現場圍觀黃仁勳和Transformer七名作者對話：世界需要比Tranformer更強的東西

今天小編分享的互聯網經驗：現場圍觀黃仁勳和Transformer七名作者對話：世界需要比Tranformer更強的東西，歡迎閲讀。

英偉達GTC大會當之無愧的重頭戲，也是黃仁勳除了自己的主題演講外唯一參與的環節，真真是萬眾期待的一場世紀對話，來了：

今天上午，老黃親自領銜七位Transformer發明人、開山巨作「Attention is All You Need」作者一起登台，帶來「Transforming AI」主題小組讨論。

全場最大的會議室門口，慕名而來的人流也是前所未見。提前1小時已經被圍得水泄不通，導致會議不得不延遲開始，完全像是巨星見面會。

等待進場的人人人人人。圖源：Gary Singh

2017年，谷歌的八名研究人員聯合發表具有裏程碑意義的「Attention is All You Need」論文，引入變壓器模型和自注意力機制，讓NLP一夜之間變了天，人工智能領網域從此不同。這篇論文也是成就後續許多大模型的奠基之作，可以説沒有Transformer架構，就沒有今天的ChatGPT、Claude、Gemini...

這八人後來已先後離開谷歌，各奔東西。這次除Niki Parmar因緊急原因未能到場外，七人都在黃仁勳的召集下合體GTC大會。是老友重聚，更是他們史上首次在公眾面前同框——足見黃仁勳和英偉達現在的勢不可擋的影響力，以及如日中天的行業地位。

而他們之中，除一人去了OpenAI，其餘七名都選擇投身創業。手中又誕生了Character.ai, Cohere, Essential AI, Inceptive這些我們耳熟能詳的AI獨角獸和當紅公司。加上黃仁勳，造就眼前這個公司總價值巨壕的陣容。八仙同台，有種傳説照進現實的感覺。

整場對話圍繞機器學習模型和AI技術的"昨天、今天、明天"。七位「Transformer Mafia」共同追憶了那篇明星論文的誕生故事，讨論從變換器架構提出到現在的7年裏模型的發展水平，也各自講述了自己離職谷歌的原因和創業秘辛。并且對未來模型探索方向，包括推理能力、數據來源、小型模型、評估标準等各個層次的預測。

黃教主第一個從粉絲簇擁中走出，上來就笑着感嘆："今天排隊的人好多！這間會議室和兩個休息室全擠滿了，等會兒他們一進來就得是一場混亂。"

他再次強調現在是「新工業革命的開始」。英偉達從計算機圖形到專注加速計算，再到将GPU應用于AI，大幅降級了人類計算成本，如今迎來了不可思議的生成式人工智能。

"這種從任何數據中學習的能力是極其變革性的。在這場新的工業革命中，我們将生產出前所未有的產品。就像以前的流水線工廠會用發電機把原材料轉化為有價值的產品那樣，在前所未有的人工智能工廠中，原材料是數據，我們所説的GPU系統就是發電機。數字進入再產出，并且應用到各行各業。這都是從未存在過的，但我們正在見證這一切發生。你絕不想錯過接下來的10年，令人難以置信的新能力将會出現，而這一切都源于一些研究人員。

今天,我們邀請到了一個名為Transformer的機器語言模型發明者們，我們就以會客廳式的方式和他們聊聊。"

黃仁勳還打趣説，剛剛在後台大家開了一大堆深度學習笑話，也有好多争論。不如就把嘉賓請上來，一起看看話題會引向何處。

在對七位Tansformer發明人依次介紹時，他又喃喃自語道，"全是CEO，這些人的公司名字裏怎麼都有AI這個詞。其實我也早就把A和I兩個字母放在NVIDIA，只是順序沒弄對。"

請出在OpenAI當Member of Technical Staff的Lukasz kaiser時還説："天哪Lukasz，上台吧，你是現在唯一還堅持做工程師的人，你是我的英雄！"一身的幽默功力引發全場爆笑。

接下來，硅星人就在GTC前排帶大家一起，見證這場傳奇對話:

1．哪些挑戰催生了Transformer和「Attention is All You Need」？

黃仁勳：首先，他們從未同時在同一個房間裏相見過。

這個 ‘work from home thing’現在已經失控了！但它沒停止創新的腳步。很高興今天能見到你們，我們會讨論transformer重要的工作意義，令人難以置信的變革能力和對行業產生的深遠影響。正如我之前所説，我們今天所享有的一切，都可以追溯到那個重要時刻。事實上，我們能夠以序列和空間的方式從大量數據中學習，發現關系和模式，創建出這些龐大的模型，确實是變革性的。

等會兒你們可以互相打斷，互相交談，如果意見不同，可以互相抗議甚至起身離開，今天沒有什麼禁忌哈哈。但回到最初——你知道作為工程師，我們需要有問題來激發靈感——是什麼問題讓你們掙扎，促使你們產生transformer的想法?

Illia Polosukhin：我想每個人面臨的問題都不一樣。但對我和我們團隊來説，我們當時在研究問答系統。非常簡單，就是在谷歌上提出一個問題，它給出答案，而且谷歌有要求延遲極低。因此如果你想讓實際的模型去搜索數據、閲讀成噸的檔案，需要做到極快速地處理。而當時的模型和RNN網絡無法做到這一點。

Jakob Uszkoreit：當時我們正處在一個生成訓練數據的速度遠超實際訓練模型速度的時期。實際上我們用的是更簡單的架構，只是用前饋網絡和n-gram作為輸入特征，因為它們在谷歌級别的訓練上速度更快。所以看起來解決這個問題是很有價值的事情。

Noam Shazeer：我們在2015年就已經看到了這種規模效應。你可以看到模型越大，它就變得越聰明。這是有史以來最簡單的問題，你只是在預測下一個token。它會變得非常聰明，能夠做出100萬種不同的事情，你只需擴大規模，讓它變得更好。

一個巨大的挑戰是，處理RNN确實痛苦對吧？所以當我無意中聽到這些家夥在談論，嘿，讓我們用卷積或者自注意力取代它吧！我想，太好了，我們就這麼做！這就像蒸汽機和内燃機的區别。我們在蒸汽機上做了各種改進,但效果一直有限。而内燃機出現後,情況就大為改觀。我們仍在等待核聚變，這就是下一波革命性突破。

Ashish Vaswani：我想，我一直被這兩個教訓所提醒，尤其是在transformer時期。當我在讀研時從事機器翻譯時，我就意識到梯度下降訓練的模型是一個比我更好的老師。所以我不再學習語言規則，而是讓梯度下降替我做這件事。另一點是，可擴展的通用架構終将赢得長期勝利。今天是tokens，明天可能是我們在計算機上執行的動作，它會開始模仿我們的活動，自動化我們大量的工作。

所以正如我們所讨論的，transformer的自注意力機制具有極大的通用性，能讓梯度下降發揮最大效用。第二個感到高興的是物理方面的，我們随着時間推移不斷優化神經網絡結構和算法，以适應加速器。所以我們把這些因素結合起來，這種模式一直在重復。每當我們有新的算法突破時，它都學得更快更好。

Noam Shazeer：就是這樣！整個深度學習領網域都是如此，我們每次都是在構建一個适應GPU特性的AI模型，而不是反過來的。所以現在我們實際上是在為超級計算機構建人工智能模型，你們都懂的哈哈。

黃仁勳：只是友情提示，我們正在做适合新模型的超級計算機。

（大家：是的，對，哈哈哈）

黃仁勳：另外幾位當時在試圖解決什麼問題？

Lukasz Kaiser：必須是機器翻譯問題。5年前這看起來是如此困難，你不得不收集數據，也許它會翻譯，也許會稍有錯誤，總之處于最基線水平。但現在這些模型，它自己就能學習，只需指定源語言和目标語言，就為你自動翻譯。

2. 論文标題和「Transformer」名字的由來，7年前已有多模态構想

黃仁勳：是什麼初衷讓你們起了「Attention is All You Need」這個論文标題?

Llion Jones：是我想出來的哈哈。基本上當時，我們正在尋找合适的标題，我們只是做一些消除操作，試着抛棄模型的一些部分，看看性能會變差多少。但令我們驚訝的是，包括扔掉所有卷積部分後，效果反而更好。所以标題就是這樣來的。

Ashish Vaswani：有趣的是，我們實際上是從一個非常簡陋的東西開始的，然後添加了其他部分，比如卷積，但後來又将它們移除了，還有諸如多頭注意力之類的重要部分。但當時我正在看一部名為《The Man From Earth》的電影，不知Llion你有沒有看過？講的是一個人居住在一個宇宙中，那個世界已經沒有甲蟲（Beatles）存活了，我想知道在那個宇宙裏我們的論文應該起什麼名字。

（"Beatles"是Transformer模型選擇正弦函數作為位置編碼機制的一種俏皮稱呼，受披頭士樂隊一句歌詞啓發）

Llion Jones：不知道，先生（笑）。

黃仁勳：聽着，這很重要，transformer是怎麼來的，你們還考慮過哪些其他選擇？為什麼叫transformer？順便説一句，這個是個很棒的名字。

Jakob Uszkoreit：我的意思是它很符合所有模型做的對嗎？Transformer形式，即在輸入和輸出之間進行轉換，而不是使用序列模型那樣的邏輯架構，這就是機器學習的本質。

黃仁勳：幾乎所有的機器學習模型都涉及轉換。

Jakob Uszkoreit：之前竟然沒人用這個名字！

Noam Shazeer：我當時覺得這個名字太簡單不喜歡，結果後來每個人都覺得它挺好。

黃仁勳：你想了哪些名字？

Noam Shazeer：哦！我想了很多，比如「Google Cargo Net谷歌貨網」，「recognition辨認器」，「convolution卷積」等等。

黃仁勳：天，太可怕了。我很高興你被否決了。

Llion Jones：我認為這樣一個廣義的名字是合适的，因為在論文裏我們并不僅僅關注于機器翻譯，而是清楚意識到我們正在努力創造一種非常通用的東西，可以将任何東西轉換為任何其他的東西。當然我們沒有預料到它最終表現得如此之好。

黃仁勳：是的，當transformer被用于影像時是很驚喜的。你可以把影像切塊标記每個加載權限。這種标記化的處理方式從一開始就體現在架構中了，很符合你們的邏輯。

Aidan Gomez：當我們在構建Tensor庫時,我們真正關注的是大規模和積極的訓練。它不僅僅是為語言服務，裏面也包含了處理影像、音頻和文本的組件，無論是輸入還是輸出。雖然Lukasz之前説他主攻的是翻譯，但我覺得他低估了自己。因為我們現在看到的多模态融合的理念，當初就已經萌芽在Transformer庫中了，那正是Lukasz要找的。

Lukasz Kaiser：我當時沒找到…

Jakob Uszkoreit：那可是5年前啊大哥！現在有了。我是説，那篇紙質論文統治了現在的模型。

Aidan Gomez：是的，盡管前5年确實進展緩慢，但自注意力機制想法很早就有了，只是滲透需要時間。Lukasz當時就有一個明确的目标，讓模型在所有這些學術數據集上訓練，包括從影像到文本、文本到影像、音頻到文本、文本到文本等任務。他覺得我們需要在所有東西上訓練。

這種想法是現在一切的驅使，真正推動了我們努力對整個網絡進行建模。OpenAI已經在這方面取得了成功，現在我們許多人都在做類似的事情。所以從第0天開始，我們就将這個北極星般的目标種在了腦海裏，看到它逐步實現、開花結果是令人感到興奮和被肯定的。

黃仁勳：有趣的是，有那麼多知識并不局限于翻譯，而是從影像到文本、文本到影像等等。Transformer的想法确實具有很強的通用性。事實上Jacob，你在将它應用于生物學。

Jakob Uszkoreit：是的，或者我們喜歡稱之為"生物軟體"。這類似于計算機軟體，生命起源于一段程式，然後被編譯成可在GPU上運行的東西。在我們這種情況下，生物軟體的生命周期始于對某種行為的規範説明。比如你説，"到細胞中產生特定數量的蛋白質"，然後使用深度學習将其翻譯為RNA分子，一旦分子進入細胞就會展現出這些行為。所以這種想法不僅能将英語翻譯成計算機代碼，還能将傳統醫藥數據中的規範轉換為實際的分子結構和藥物。

黃仁勳：那你們是否創建了一個巨大的濕實驗室來生產所有這些東西呢?

Jakob Uszkoreit：你必須在自然界中進行實驗驗證對吧？雖然有大量極其寶貴的基因組公開數據可下載，這主要是因為公費資助的緣故。但你仍需要重新關注，并明确定義你試圖建模和在產品中應用的那些東西。比如mRNA疫苗中的蛋白質表達。

黃仁勳：這确實是個很好的例子。

Jakob Uszkoreit：在palo Alto，我們這裏有一大群機器人和穿實驗服的人，他們之前是生物學家。但現在我們認為自己是在開創新事物的先驅，我們致力于創造那些數據并驗證模型。

3. 從Transformer問世到現在的模型發展，進步空間

黃仁勳：所以Aidan，你説一開始就有了那種通用翻譯和通用學習的想法，那麼在基礎transformer設計之上，你們看到了哪些主要的架構修復、增強或突破性進展，是非常有價值的額外貢獻呢?

Aidan Gomez：我認為在推理方面，人們已經做了大量工作來加速這些模型，提高效率。但我仍然覺得有些不安，現在還是離我們最初的形式太相近了。我覺得世界需要比transformer更強的東西。我想我們所有人都希望能有新的突破，登上新的性能高峰。我想問在座各位，你們認為接下來會有什麼新的進展？因為這将是令人興奮的一步，現在與6、7年前的情況太過相似了對吧?

Llion Jones：是的，人們對它的相似程度感到驚訝。而且大家确實喜歡問，接下來會有什麼新的進展？如果我能魔法般地知道，那就該上報刊頭版了。但我通常是這樣回答這個問題的，這種事物進展的一個重要事實是，你不僅需要變得更好，而且必須明顯更好。因為如果只是略微得好，還不足以讓整個AI行業轉向新的東西。我們仍然停留在原始模型上，盡管從技術上講，它可能已經不同于我們現在擁有的最強大東西，但工具集還是差不多。

黃仁勳：但哪些部分是你們希望更好的？是生成能力，還是想讓生成token的速度更快?

Llion Jones：我不确定你是否會喜歡這個回答，但現在的計算量太大了。我想人們處于大量的計算量浪費。

黃仁勳：我們正在努力提高效率謝謝。

Jakob Uszkoreit：其實這是關于資源分配，不是總計算量。是你放在重要問題上的努力和精力問題。你不想在簡單事情上放太多，也不想在困難事情上放太少，以至于無法很好地解決問題。

Illia Polosukhin：是的。假如你輸入"2+2"這個問題，它會使用數萬億的計算力，盡管計算機完全有能力解決這種簡單的問題。

Llion Jones：所以我認為，計算是接下來必須解決的問題之一。我們需要知道針對特定問題應該投入多少計算資源。

Aidan Gomez：我知道馬上有其他作者在随後的論文中提出了通用transformer，就是針對這一點的。所以這些想法當時就已經存在了。

Noam Shazeer：那之前是一篇MoE論文，現在已經到處都是了。

Ashish Vaswani：我不知道在座的其他人，但我覺得我們在最初的願景上有些失敗了。我們當初這樣做，是因為不僅希望模拟token的線性生成，代碼也能不斷進化、迭代和編輯，從而讓我們更好地模拟人類如何產生和改進文本。因為如果像人類那樣自然生成，它們實際上可以得到反饋，對嗎?

我的意思是，我們都讀過香農關于語言模型的論文，但那種情況并沒有發生。我認為這也與如何明智地組織計算資源有關。未來有趣的模型屬性是它們可以迭代式完善和改進。這讓我想到另一個基本問題，即知識應該内置在模型中還是存在于模型之外？檢索模型，比如RAG，就是這種情況的一個例子。它也與推理有關，哪些推理應該在符号系統之外完成，哪些推理應該在大模型中完成？因為大模型做加法等簡單運算是很低效的。

黃仁勳：在這個例子裏，如果問"2+2等于幾"，AI就應該直接拿起計算器，用我們已知的最省能量的方式來解決。然而，如果被問及"你是怎麼得出2+2等于4的"或者"2+2的正确答案是不是4"，它就可以從原理上解釋清楚。所以雖然你給出了這個例子，但我很确定你們做出的AI完全有能力去拿起計算器解這種簡單的問題。

Lukasz Kaiser：ChatGPT 現在就能做這些啊~

Noam Shazeer：我想問題在于目前的模型還是太便宜或太小了。我是説Jensen，謝謝你你把每次操作的計算成本從10美元減少到-18美元，謝謝你成就這些。但是，如果你看一個有5千億參數的模型，每個token要做萬億次計算，那仍然相當于每花1美元可以生成100萬個token。這比買一本平裝書還便宜100倍。

它太便宜了，以至于我們有成百上千種更有價值的應用，而不是在一個巨大的神經網絡上進行高效計算。比如像是，治療癌症這種重大問題，或者與任何人交談、與醫生、律師、程式員等交談、獲取不同觀點，你支付每個token1美元。我們本可以利用這些資源讓系統變得更聰明，因為有時恰當的一個詞就能改變世界。

Ashish Vaswani：讓它們變得更智能，界面非常重要。我們如何實際獲得正确的反饋？我們如何以一種人類可以适時介入的方式來分解我們正在處理的任務？如果最終目标是構建可以通過觀察我們的界面來模仿和學習解決任務的模型，那麼這個接口将至關重要。

4. 當初為何離職谷歌，離開後做了什麼，各自的創業理念？

黃仁勳：這可能是實現這一目标的一個好方法。你們發明transformer後離開了谷歌，每個人能否簡單介紹一下自己的公司及創辦的原因？因為你們描述的也許是你們公司正在努力的事情。

Ashish Vaswani（Essential AI）：是的這太重要了。我們真的想理解并復制人類的認知目标，而不是簡單模仿他們在做什麼，因為這最終将改變我們與計算機互動以及工作的方式。基本上在2021年，我離開的一個主要原因是，唯一讓這些模型變得更聰明的方式就是把它們放到人們手中。你不可能在實驗室的真空環境中讓這些模型變得更聰明。你必須讓它們走向世界，讓世界與這些模型互動，從中獲取反饋，并讓它們變得更聰明。做到這一點的方式就是走出去，創建新的學習體驗。

黃仁勳：學習确實需要絕對的經驗飛輪。絕對是這樣。

Ashish Vaswani：沒錯。當時在實驗室的真空環境中做這件事很困難，而把東西推向世界則更容易一些。

Noam Shazeer( Character.AI)：是的。我在2021年離職時最大的挫敗感就是，這項令人難以置信的技術還無法觸及每個人。而它有如此多的用途，如此簡單易用。

黃仁勳：你是不是太沒耐心了？

Noam Shazeer：是的哈哈，你們能想象有數十億人能夠使用它，讓它們發揮百萬種用途嗎?

黃仁勳：這叫禅道，Deep learning的時候就得deep，你要冷靜點。（Noam确實是台上幾位裏情緒最飽滿的一個~）

Noam Shazeer：感謝上帝賜予我們這令人難以置信的技術啊。你知道，我們的最終目标是幫助全世界每個人。所以我必須離職創業，讓這些發生。從真正構建一些東西開始，盡快推出并讓數十億人能夠使用它。從一開始，許多人可能只是将它用于娛樂、情感支持或交友等...

黃仁勳：但Character确實幫助了很多人，你都沒提它的用户數量！説明它真的很有用，恭喜你們。

Jakob Uszkoreit（ Inceptive）：我已經説了些生物軟體方面的東西。關于為什麼我個人在2021年創辦公司的原因，可能是更多意識到這項技術能比以前更廣泛地改善人們的生活質量。

我的第一個孩子在疫情期間出生，這讓我重新認識到生命的脆弱性。幾周後，用于蛋白質結構預測的AlphaFold 2用于蛋白質結構預測的結果公布，Alpha Fold 2比1的一個重大變化是使用了transformer架構來取代其他模型架構，因此它在分子生物學領網域可以投入使用，這一點變得很明确。再過幾周，mRNA COVID疫苗的功效結果公布，RNA尤其是RNA世界假説的潛力變得非常明确——用RNA就能完成生命中的任何事情，但長期以來數據一直很少，在某種程度上它是分子生物學領網域的"遺孤"。所以這幾乎成為了一種道德義務，必須有人去做。

黃仁勳：我一直把它看作是藥物設計。但我更喜歡你将其比作編程蛋白質，這個類比更有意義。我非常喜歡這個概念。當然，這個編譯器必須是學習出來的。我們不會手寫這個編譯器，因為人們需要學習使用它。如果你要學習使用這個編譯器，顯然需要一個實驗室,你将在實驗室中生成目标物質，這個飛輪就可以運轉起來了，我已經可以想象它的樣子了。Llion 呢？

Llion Jones（Sakana AI）：是的，我是最後一個離開谷歌的。目前我還處于非常早期的階段，但我可以告訴你到目前為止的進展。我是 Sakana AI公司的聯合創始人，

黃仁勳：Sakana是指什麼？

Llion Jones：有點奇怪，是"魚"的意思。英語聽起來有點怪吧，好在日本人就喜歡這種。我們之所以将它命名為"魚"，是希望能夠讓人聯想到魚群。我們希望結合自然和人工智能。類比就是，單個魚可能很簡單，但當你将許多簡單的東西組合在一起時，它們就會變得相當復雜。人們并不完全确定我們所説的"受自然啓發"是什麼意思，所以我想就此多讨論一下。

當我試圖向加入的研究人員灌輸的核心理念是，學習總是對的。任何時候，如果你從人工嘗試某事轉向讓計算機自己搜索最優解，你總是會赢的。事實上，最初的深度學習革命就是一個例子，我們不再進行人工特征工程，而是直接學習，效果好多了。所以對這間屋子裏的研究者，我想提醒大家，有了英偉達提供的大量計算資源後，我們除了在狹義的意義上訓練大型語言模型外，還可以利用它來探索當前手工工程的搜索空間。

實際上我想告訴你們，今天或明天，我們就會做一個官宣。我有些驚訝，因為我們還如此早期，但我們确實有一些正在開源的研究成果，而且與當下的熱門主題模型融合非常吻合。目前模型融合都是手工完成的，所以我們做的是,利用大量計算資源對我們平台上的所有可用模型進行進化計算，搜索如何合并和堆疊各層，而且結果非常好。所以我想説，請留意相關發布。

黃仁勳：哇，太棒了，先祝賀你們！

Llion Jones：實話説還有件事，我們正在招聘。

Aidan Gomez（Cohere）：我創辦 Cohere 的原因與大家很相似，是因為認為這項技術能夠改變世界。你知道，計算機開始與我們對話，獲得了一種新的互動模式。所以我認為這應該改變一切，改變我們使用的每一種產品、我們與之互動的一切，所有這些東西都将構建在計算機之上。但現實中一切都沒有改變，面對的是停滞狀态，存在着技術發展與現實世界之間的差異，對我們這些了解内情的人來説是一種不協調感。

所以我希望能夠彌合這一差距。我思考問題的方式與你們有些不同，Cohere是為企業構建的。我們創建了一個平台，讓每個企業都可以采用和集成這項技術到他們的產品中，而不是直接面向消費者。但這是我們想要推廣該技術、讓它更容易獲取、更便宜且更有競争力的方式。

黃仁勳：你知道，我真正喜歡的是，這是Aidan很興奮時看起來的樣子。（他風格很像《硅谷》電視劇中的Gilfoyle，一樣得鎮定，發型也差不多），然後那邊是Noam很冷靜時看起來的樣子。Lukasz 呢？

Lukasz Kaiser（ OpenAI）：我沒創立任何公司。

黃仁勳：我知道，但你們改變了世界，説説看！

Lukasz Kaiser：我最終加入了OpenAI。有一個著名的故事，有人問銀行劫匪為什麼搶銀行，他説因為那裏有錢。當我加入時，OpenAI正是擁有最好的Transformer模型的地方。在那家公司，我們知道可以利用大量數據和計算資源創造出優秀的東西。我當時還抱有一個希望，即使沒有大量數據，只要有更多計算資源就行。

Illia Polosukhin：我是第一個中途離開的。軟體正在吞噬世界，機器學習正在吞噬軟體。所以最直接的方式就是教會機器編碼，以便能夠實際生成軟體，改變每個人獲取軟體的方式。當時是2017年，那會兒還為時過早，我們當時的計算能力還不夠好。因此我們當時所做的，是試圖協調人們實際生成更多數據。作為一家初創公司，你确實有能力将某些東西呈現給用户，并給予他們動機。我們最終意識到需要一種新的基本元素，即可編程貨币，因為可編程貨币能讓我們協調大規模的人力。

所以我們最終構建了一個協定，這是一個區塊鏈，你知道，自2020年以來一直在運行。它在區塊鏈領網域擁有全球最多的用户，有數百萬的日活躍用户，他們甚至都不知道自己在使用區塊鏈。但他們正在與這種可編程貨币價值進行互動。現在我們開始利用它來重新構建一些工具，以生成更多數據。我認為從根本上説，雖然在這可能是有争議的，但70年代的版權技術需要改變，我們正迎來一個新的生成時代。目前我們獎勵創作者的方式已經被打破。唯一的解決方案是利用可編程貨币、可編程價值和區塊鏈。

所以我們正在從事的一項工作就是，創造一種全新的方式，讓人們為超酷的模型貢獻數據。

黃仁勳：的确超級酷。然後你就可以在此基礎上構建一個全新的正反饋系統，與我們正在做的一切都是一致的，并在其上建立一個全新的經濟體系。我們有可編程的人類，有可編程的蛋白質，有可編程的貨币…我太喜歡這種概念了。

5. 未來需要什麼樣的新模型技術，例如獲取數據、推理能力、訓練範圍、

所以人們有一個問題是，當現在的GPT模型的訓練數據集大約有10萬億個token，相當于整個互聯網的大小，包括你可以從互聯網上免費抓取的所有内容。那麼接下來呢？我們需要探索什麼樣的新模型技術？比如推理，這些數據怎麼來？

Illia Polosukhin：互動，數據必須來自于用户的互動。

黃仁勳：确實，需要來自大規模用户互動的數據。你説得對，我們需要建立龐大的平台來實際跟蹤這些互動，并給予人們從中獲利的經濟價值作為動機來做這件事。然後在後端，我們終于可以利用這些模型變得更加智能，并通過這種方式使模型變得更好。但是，如何獲得每個人都想與之互動的那種令人難以置信的預訓練模型？也許我們可以讓模型通過強化學習相互互動？或者使用合成數據生成技術？你知道的，我認為在我們所有人中間，我們正在致力于這些技術中的每一種。

Llion Jones：我認為即将到來的下一個重大突破是推理能力。我想很多人都已經意識到這一點，并且有很多人都在從事相關的工作。但同時，目前很多工作仍然是在人工設計。我們手工編寫提示，然後嘗試讓模型以我們認為它們應該互動的方式進行互動。我認為實際上應該搜索這個解集空間，并學習如何真正将這些東西連接在一起，以獲得我們想要的強大推理能力。

Jakob Uszkoreit：另一種思考方式是，那些被設計為生成我們人類想要消費的媒體内容的模型，應該在我們想要消費或能消費的所有刺激上進行訓練，包括任何類型的視頻、音頻或觀察世界的任何方式，以及3D信息、空間信息、時空信息等，它們都應該被完全輸入進去。

Lukasz Kaiser：我不确定每個人是否都理解推理和從少量數據中學習是非常相關的。因為如果你有一個能夠進行推理的模型，那麼即使只有一小部分數據，它也能進行大量處理，比如推理這個東西為什麼會跟随那個東西？但它可以在這個過程中投入大量計算。然後你就會知道，哦是的，結果就是這樣。由于投入了大量用于推理的計算，它就能夠從微小的狀态推廣開去。就像人腦在思考時一樣。然後基于此你就可以讓它自由運行，嘗試構建它認為會做得很好的事物，自行設計實驗，以便推理能力可以持續搜索獲得最有影響力的數據。一旦我們掌握了推理,它将大幅減少所需的數據量。但你需要的數據質量将變得更加重要，這就是人們與現實世界互動的地方。

Illia Polosukhin：所以我們認為，将會有一個新時代，仍然會在一些純token上進行預訓練，但真正重要的可能是那些高質量的東西，讓人們更容易為貢獻這些數據而獲得回報，基本上是在教導機器變得越來越好。

Noam Shazeer：即使一個人只見過十億個token，人們也可以學習得相當好，這就是證明。

Ashish Vaswani：這個領網域取得了很多進展，這在很大程度上是因為制定了基準測試和評估指标。因此，将現實世界的大規模任務分解為更簡單的級别也很重要。因為我們的模型可能可以完成其中的一些，然後它們就可以部署、獲取更多數據。一旦這個循環關閉，它們就有能力承擔更復雜的任務。一方面是因為它們也可能在觀察自己在做什麼，這提供了更多數據，然後可以做更復雜的事情。所以我的确覺得随時構建、衡量進展才能取得進步，有精确的測量系統才能幫助我們做好工程。

黃仁勳：好的，我有個問題要問你們，現在你們最想互相問對方哪三個問題?

Aidan Gomez：關于序列狀态模型(Sequence State Models)，你們覺得怎麼樣?

Illia Polosukhin：變換器其實有一個復現步驟。這是一個有趣的事實，我發現沒人真正利用變換器可以運行可變數量步驟的事實，并以不同方式訓練它。比如實際探索我們能用復現做些什麼。就像這個模型，每一個時間戳它都會為每個token增加一些信息，以解決問題并進行推理。很明顯，如果你有6個步驟，你實際上只做5個推理步驟就能獲取更多上下文，從而跳過1步。所以有時你不需要6步，有時需要更多。那麼，在這方面你能做哪些不同的循環呢？另一個是，我們如何擺脱token？

Lukasz Kaiser：也許從根本上來説，你需要用不同于梯度下降的方式來訓練它。在某種意義上，我們人類也是循環的，我們生活在時間中，我們的大腦會随時間更新。但很明顯，我們并非通過反向傳播進行訓練。所以也許存在一種方式，只是不是梯度下降，這就是為什麼它一直如此難以解決。

黃仁勳：好了各位，很高興能與你們共度一些時光。我真希望你們能不時聚在一起。下次你們的互動會產生怎樣的神奇效果？整個行業都感激你們所做的工作。

謝謝！我很感激你們！我無法表達感謝之情。

最後，黃仁勳給每人送上一台DGX-1（當初給OpenAI捐贈的那個），上面題字「Thank you for transforming the world！」

現場掌聲雷動，身旁小夥伴表示"好像奧斯卡頒獎禮"。

黃仁勳跟依次排列的七位作者握手致謝的時候，也讓大家感嘆，果然老黃才是大哥中的大哥啊！