OpenAI公關跳起來捂他嘴：Transformer作者公開承認參與Q*！

今天小編分享的科學經驗：OpenAI公關跳起來捂他嘴：Transformer作者公開承認參與Q*！，歡迎閱讀。

Transformer 作者中唯一去了 OpenAI 的那位，公開承認了：

他參與了 Q* 項目，是這項新技術的發明者之一。

這幾天除了英偉達老黃組局把 Transformer 作者聚齊，他們中的幾位還接受了連線雜志的采訪，期間出了這麼一個小插曲。

當記者試圖詢問Lukasz Kaiser更多關于 Q* 的問題時時，OpenAI 的公關人員幾乎跳過桌子去捂他的嘴。

結合奧特曼在接受采訪時，毫不遲疑地拒絕了相關提問，" 我們還沒準備好談論這個話題 "。

神秘 Q*，成了 OpenAI 當前最需要保守的秘密之一。

不過對于 Transformer 背後的開發内幕，以及谷歌究竟為什麼沒能在得到這項技術之後搶先推出轟動世界的 AI 產品，作者們透露了不少：

Noam Shazeer（現 Character.AI 創始人）才是貢獻最大的

谷歌早在 2012 年嘗試手開發生成式 AI 搜索

2017 年他們就建議訓練萬億參數大模型，但未被高層采納

總之，信息量比幾位在老黃的圓桌論壇上商業互吹要高得多。‍‍‍‍‍‍‍‍‍‍‍‍

《Attention is all you need》發表于 2017 年，到現在被引次數已超過 11 萬。

它不僅是當今 ChatGPT 為代表的大模型技術起源之一，其中介紹的 Transformer 架構和注意力機制也被用在了 Sora、AlphaFold 等眾多改變世界的 AI 技術之中，是當之無愧的傳奇。

為什麼是谷歌能搞出這等成果？谷歌又為什麼在後來的大模型競争中落後？

整個故事還要從 2012 年說起。

谷歌害怕 Siri 搶飯碗

2011 年底，蘋果正式推出 Siri，試圖在對話中提供對問題的答案。

谷歌高層如臨大敵，認為 Siri 可能會搶走他們的搜索流量。

2012 年，一個團隊致力于開發新功能，期望能在搜索頁面上直接回答用戶的問題，而不用點擊鏈接跳轉到其他網站。

最終這項努力催生出了 Transformer 架構，能有效在數據和算力上擴展，導致了整個 AI 領網域重大突破。

Jokob Uszkoreit（現 AI 生物技術公司 Inceptive 聯合創始人）就是在這個時候放棄攻讀博士學位加入了這個團隊，成為 Transformer 最初的起點。

他來自德國，碩士畢業于柏林工業大學，父親 Hans Uszkoreit 是著名計算語言學家、歐洲科學院院士。

在 Uszkoreit（後簡稱烏茲哥）現在看來，谷歌高層當時對 Siri 的恐慌是沒必要的，Siri 從未真正威脅到過谷歌的業務，但他很高興能有機會深入研究 AI 和對話系統。

2012 年也是 AlexNet 在計算機視覺大獲成功、神經網絡復興的時候，谷歌瘋狂地安排員工嘗試類似的技術，希望能開發出自動補全電子郵件的功能，或相對簡單的客戶服務聊天機器人。

當時最被認可的方案是長短期記憶網絡LSTM，但這項技術只能按照順序處理句子，無法有效利用文章後面可能出現的線索。

直到 2014 年左右才有了新進展，烏茲哥開始嘗試現在被稱為 " 自注意力 " 的方法。

注意力機制誕生

烏茲哥認為自注意力模型可能比循環神經網絡更快、更有效，處理信息的方式也非常适合擅長并行處理的 GPU。

但當時，包括他的學術大牛父親在内，許多人都不看好，認為抛棄了循環神經網絡就是一種異端。

烏茲哥花了一些力氣說服幾位同事一起試驗新想法，并于 2016 年發表了一篇相關論文。

在這項研究中只使用了極小的文本訓練（SNLI 數據集，包含 57 萬個人類寫的英語句子）。

烏茲哥希望進一步推進他們的研究，但他的合作者都不感興趣再繼續了。

其他研究人員就像在答題闖關中剛答對了一道題就帶着微薄的獎金離開，但烏茲哥堅持認為自注意力機制可以發揮更大的作用，開始在公司裡到處找人安利他的想法。

2016 年的一天，他終于遇到志同道合的人Illia Polosukhin（現區塊鏈公司 NEAR Protocol 創始人）。

集齊 8 位圓桌騎士

Polosukhin（後簡稱菠蘿哥）當時已在谷歌工作三年，被分配到為搜索問題直接提供答案的團隊。

菠蘿哥的進展不順利，因為從用戶體驗出發，需要在幾毫秒内對問題產生回應，當時還沒有這麼高性能的解決方案。

烏茲哥與菠蘿哥共進午餐的時候聽說這事，毫不猶豫的安利起他的自注意力機制。

菠蘿哥曾透露，他後來覺得 A 自注意力就像科幻小說《你一生的故事》以及改編電影《降臨》裡外星人 " 七肢桶 " 的語言，沒有先後順序，而是像幾何圖案一樣排列。

總之，菠蘿哥後來不僅同意嘗試，還拉來了第三位成員Ashish Vaswani合作（先後創辦了 Adept AI 和 Essential AI）。

Vaswani（後簡稱瓦斯哥）來自印度，博士畢業于南加州大學後加入谷歌大腦，相信神經網絡将促進人類整體的理解能力。

三位研究人員共同起草了 Transformer 的設計文檔，他們從第一天開始就選擇了同樣代表" 變形金剛 "的這個名字，因為" 系統會改變接收到的信息 "，也因為菠蘿哥小時候喜歡玩變形金剛玩具。

不過菠蘿哥沒過多久就從谷歌離開去創業了，同時，其他成員陸續加入這個小隊伍。

2017 年初，第四位成員Niki Parmar（後簡稱帕姐）加入，他與瓦斯哥同樣來自印度、也都畢業于南加大，後來兩人也成了創業夥伴。

後面幾位成員的加入多少都帶點戲劇性。

第五位Llion Jones（後簡稱囧哥）來自英國，2009 年碩士畢業于伯明翰大學，但有好幾個月找不到工作靠救濟金工作。2012 年他先加入 Youtube 團隊，後進入谷歌研究院。

他是團隊中最晚從谷歌離職的，去年在日本成立了 Sakana AI。

囧哥是從另一位同事Mat Kelcey（他就出現一次，不用簡稱了）那裡聽說 Transformer 的，不過 Kelcey 自己當時并不看好這個項目。

Kelcey 信奉貝葉斯，他的頭像是 AI 預測他是技術宅的概率為 60%。後來他認為沒加入 Transformer 團隊這是他一生中最大的預測失誤。

話說回來，第六位Aidan Gomaz（後簡稱割麥子，現 AI 公司 Cohere 創始人）是最年輕的，他在多倫多大學讀大三時加入 Hinton 的實驗室，主動給谷歌裡各種寫過有意思論文的人發郵件申請合作。

第七位Lukasz Kaiser（後簡稱凱哥，現 OpenAI 研究員）邀請了割麥子參與實習。直到幾個月後，割麥子才知道這實習本來是針對博士生的，而不是他一個大學生。

凱哥來自波蘭，本來做的是理論計算機工作，後來發現自注意力對他們當時正在解決的問題（可分布式計算的大型自回歸模型）是一種有前途且更激進的方案，兩人就加入了 Transformer 團隊。

六人（菠蘿哥已經創業去了）聚到一起後，團隊開始把試驗方向定在機器翻譯，使用 BLEU 基準測試來把模型翻譯結果與人工翻譯做比較。

早期 Transformer 原型表現不錯，但只是與 LSTM 方案差不多，并沒有更好。

此時，第八位關鍵成員Noam Shazeer（後簡稱沙哥）出場了，他畢業于杜克大學，2000 年加入谷歌，當時全公司只有 200 人左右，

後來他成為谷歌内部的傳奇人物，參與了谷歌搜索的拼寫糾正功能，也負責過早期廣告系統，2021 年離開谷歌後創辦了 Character.AI。

據沙哥回憶，當時他正在辦公樓走廊裡走，經過凱哥的工位時聽到激烈的對話：瓦斯哥正在談論如何使用自注意力，而帕姐對此很興奮。

沙哥覺得這是一群有趣的聰明人在做有前途的工作，最終被凱哥說服加入。

至此，8 位傳奇人物終于全部登場。

衝刺 NIPS 聖杯

沙哥的加入至關重要，他用自己的想法重新編寫了整個代碼，把整個系統提升到了一個新的水平。

團隊一下充滿動力，開始拼命卷自己，想在 2017 年 NIPS（後改名 NeurIPS）截止的 5 月 19 日之前完成。

Deadline 前的最後兩周，他們大部分時間都在咖啡機附近的辦公室，很少睡覺。

割麥子作為實習生不斷地瘋狂調試，試驗各種技巧和網絡模塊的排列組合。

最終在沙哥的幫助下，人們現在所知道的 Transformer 架構誕生了，相比試驗中的其他方案顯得非常" 極簡主義 "。他們這樣評價：

Noam（沙哥）是一個巫師。

沙哥厲害，但是沙哥并不自知。看到論文草稿的時候，他發現自己是一作還很驚訝。

讨論一番後，最終他們決定打破學術界一作二作通訊作的規則，随機排序，并給每個人名字後都打上星号，腳注标明都是平等貢獻者。

在給論文取名字的階段，來自英國的囧哥提議借用披頭士樂隊的歌曲《All You Need Is Love》，改成《Attention is all you need》，其他人也同意了。

他們訓練了基礎和大杯兩個模型，其中 65M 基礎版就擊敗了所有同級競争對手，213M 大杯版甚至破了 BLEU 測試的記錄，同時計算效率也更高。

直到截止日期最後幾分鍾，他們還在繼續收集實驗結果，英法翻譯的數據是最後 5 分鍾出來的，論文在最後兩分鍾提交。

當時學術會議審稿人的反應不一，一個評價積極，一個評價非常積極，第三個評價是只是 " 還算 ok"。

到了 12 月會議正式線下舉辦的時候，這篇論文引起了轟動。4 小時的會議上擠滿了想要了解更多的科學家。

參會的幾位作者一直聊到嗓子嘶啞，最後場地閉館時仍然人頭攢動，最後被保安清場。

從整個 Transformer 誕生歷程來看，谷歌當年的開放包容的文化是必不可少的：

這八個人聚在一起，是靠走廊裡的偶遇和午餐時聊天。

OpenAI 摘桃子

回到論文撰寫過程中的某一天，瓦斯哥累得癱倒在辦公室的沙發上，盯着窗簾看出了幻覺，覺得布料上的圖案就像突觸和神經元。

那天他突然意識到，他們正在做的事情将超越機器翻譯。

最終就像人腦一樣，将所有語音、視覺等所有模态統一在一個架構下。

沙哥則在應用方向上有驚人的遠見，論文發表前後就給谷歌高管去了一封信。

他提議公司放棄整個搜索索引，并用 Transformer 架構訓練一個巨大的神經網絡替代，基本上是在建議谷歌改變整個信息組織的方式。

當時團隊裡凱哥都還認為這個想法很荒謬。但如今看來，谷歌正在朝這個方向努力，只是個時間問題了。

烏茲哥後來復盤，在 2019 年或者 2020 年谷歌就有機會推出 GPT-3，甚至是 GPT-3.5 等級的模型，還發出靈魂提問：‍‍‍‍‍

我們看到了可能性，但為什麼不采取行動呢？

結果卻是對手 OpenAI 的首席科學家Ilya Sutskever在論文發表當天就意識到" 它給了我們想要的一切 "，并建議同事 Alec Radford 開始動手研究。

Radford 先開發了 GPT 的原型，然後 OpenAI 調動更多人從機器人、DOTA 遊戲等項目轉型，參與進來開發了 GPT-1、GPT-2 ……這就是另外一個故事了。

打造一種能同時在數據和算力上擴展的模型，是 Transformer 架構的出發點，也是其成功的關鍵。

但少了頂層設計和推動，谷歌也就只能止步于此，單靠員工自發已經無法組織起滿足 Scaling Law 發展下去需要的人力物力财力。

OpenAI 的組織形态既有自下而上的靈活、又有自上而下的專注，能在這條路上走的更遠幾乎是不可避免的。

OpenAI CEO 奧特曼曾評價，谷歌高層當時似乎沒人認識到 Transformer 真正意味着什麼。

如今 8 位作者也陸陸續續從谷歌離職，既然公司遲遲不肯用 Transformer 搞事情，那就自己去搞。

除了最早離開的菠蘿哥的區塊鏈公司之外，其它成員的的去向都和 Transformer 相關。

2019 年，實習生割麥子畢業沒多久，就先帶頭創辦Cohere，為企業提供大模型解決方案，目前估值 22 億美元。

2021 年開始，成員集中出走。

瓦斯哥和帕姐先後攜手創辦Adept AI（估值 10 億美元）、Essential AI（融資 800 萬美元），都是自動化工作流程方向。

沙哥創辦 AI 角色扮演聊天平台Character.AI，現在估值約 50 億美元，用戶活躍度和留存率比 OpenAI 都高。

烏茲哥回到德國創辦的生物 AI 技術公司Inceptive，估值 3 億美元。甚至烏茲哥透露，他的計算語言學家老父親也在籌辦一家新的 AI 公司，同樣基于 Transformer。

只有凱哥沒有創業，2021 年他加入了 OpenAI，後來參與了 GPT-4，以及 Q* 項目。

最後離開的是囧哥，23 年他到日本創辦的Sakana AI估值 2 億美元，最新成果是用擅長不同領網域的大模型融合，結合進化算法，搞出更強的模型。

……

許多谷歌老員工批評谷歌慢慢從一個以創新為中心的遊樂場，轉變為一個注重利潤的官僚機構。

甚至在 2020 年，谷歌 Meena 聊天機器人發布後，沙哥又發了一封内部信"Meena 吞噬世界 "，其中的關鍵結論是：

語言模型将以各種方式越來越多地融入我們的生活，并且将在全球算力中占主導地位。

這太有前瞻性了，幾乎準确預言了後來 ChatGPT 時代發生的事，也就是現在進行時。

但當時谷歌高層仍舊不為所動，關鍵決策者忽略甚至嘲笑他。

谷歌曾擁有整個 AI 王國的所有鑰匙，卻弄丢了鑰匙鏈。

參考鏈接：

[ 1 ] https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

[ 2 ] https://www.youtube.com/watch?v=zBK2CPka5jo

[ 3 ] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini