大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

OpenAI公關跳起來捂他嘴:Transformer作者公開承認參與Q*!

2024-03-25 简体 HK SG TW

今天小編分享的科學經驗:OpenAI公關跳起來捂他嘴:Transformer作者公開承認參與Q*!,歡迎閱讀。

Transformer 作者中唯一去了 OpenAI 的那位,公開承認了:

他參與了 Q* 項目,是這項新技術的發明者之一。

這幾天除了英偉達老黃組局把 Transformer 作者聚齊,他們中的幾位還接受了連線雜志的采訪,期間出了這麼一個小插曲。

當記者試圖詢問Lukasz Kaiser更多關于 Q* 的問題時時,OpenAI 的公關人員幾乎跳過桌子去捂他的嘴。

結合奧特曼在接受采訪時,毫不遲疑地拒絕了相關提問," 我們還沒準備好談論這個話題 "。

神秘 Q*,成了 OpenAI 當前最需要保守的秘密之一。

不過對于 Transformer 背後的開發内幕,以及谷歌究竟為什麼沒能在得到這項技術之後搶先推出轟動世界的 AI 產品,作者們透露了不少:

Noam Shazeer(現 Character.AI 創始人)才是貢獻最大的

谷歌早在 2012 年嘗試手開發生成式 AI 搜索

2017 年他們就建議訓練萬億參數大模型,但未被高層采納

總之,信息量比幾位在老黃的圓桌論壇上商業互吹要高得多。‍‍‍‍‍‍‍‍‍‍‍‍

《Attention is all you need》發表于 2017 年,到現在被引次數已超過 11 萬。

它不僅是當今 ChatGPT 為代表的大模型技術起源之一,其中介紹的 Transformer 架構和注意力機制也被用在了 Sora、AlphaFold 等眾多改變世界的 AI 技術之中,是當之無愧的傳奇。

為什麼是谷歌能搞出這等成果?谷歌又為什麼在後來的大模型競争中落後?

整個故事還要從 2012 年說起。

谷歌害怕 Siri 搶飯碗

2011 年底,蘋果正式推出 Siri,試圖在對話中提供對問題的答案。

谷歌高層如臨大敵,認為 Siri 可能會搶走他們的搜索流量。

2012 年,一個團隊致力于開發新功能,期望能在搜索頁面上直接回答用戶的問題,而不用點擊鏈接跳轉到其他網站。

最終這項努力催生出了 Transformer 架構,能有效在數據和算力上擴展,導致了整個 AI 領網域重大突破。

Jokob Uszkoreit(現 AI 生物技術公司 Inceptive 聯合創始人)就是在這個時候放棄攻讀博士學位加入了這個團隊,成為 Transformer 最初的起點。

他來自德國,碩士畢業于柏林工業大學,父親 Hans Uszkoreit 是著名計算語言學家、歐洲科學院院士。

在 Uszkoreit(後簡稱烏茲哥)現在看來,谷歌高層當時對 Siri 的恐慌是沒必要的,Siri 從未真正威脅到過谷歌的業務,但他很高興能有機會深入研究 AI 和對話系統。

2012 年也是 AlexNet 在計算機視覺大獲成功、神經網絡復興的時候,谷歌瘋狂地安排員工嘗試類似的技術,希望能開發出自動補全電子郵件的功能,或相對簡單的客戶服務聊天機器人。

當時最被認可的方案是長短期記憶網絡LSTM,但這項技術只能按照順序處理句子,無法有效利用文章後面可能出現的線索。

直到 2014 年左右才有了新進展,烏茲哥開始嘗試現在被稱為 " 自注意力 " 的方法。

注意力機制誕生

烏茲哥認為自注意力模型可能比循環神經網絡更快、更有效,處理信息的方式也非常适合擅長并行處理的 GPU。

但當時,包括他的學術大牛父親在内,許多人都不看好,認為抛棄了循環神經網絡就是一種異端。

烏茲哥花了一些力氣說服幾位同事一起試驗新想法,并于 2016 年發表了一篇相關論文。

在這項研究中只使用了極小的文本訓練(SNLI 數據集,包含 57 萬個人類寫的英語句子)。

烏茲哥希望進一步推進他們的研究,但他的合作者都不感興趣再繼續了。

其他研究人員就像在答題闖關中剛答對了一道題就帶着微薄的獎金離開,但烏茲哥堅持認為自注意力機制可以發揮更大的作用,開始在公司裡到處找人安利他的想法。

2016 年的一天,他終于遇到志同道合的人Illia Polosukhin(現區塊鏈公司 NEAR Protocol 創始人)。

集齊 8 位圓桌騎士

Polosukhin(後簡稱菠蘿哥)當時已在谷歌工作三年,被分配到為搜索問題直接提供答案的團隊。

菠蘿哥的進展不順利,因為從用戶體驗出發,需要在幾毫秒内對問題產生回應,當時還沒有這麼高性能的解決方案。

烏茲哥與菠蘿哥共進午餐的時候聽說這事,毫不猶豫的安利起他的自注意力機制。

菠蘿哥曾透露,他後來覺得 A 自注意力就像科幻小說《你一生的故事》以及改編電影《降臨》裡外星人 " 七肢桶 " 的語言,沒有先後順序,而是像幾何圖案一樣排列。

總之,菠蘿哥後來不僅同意嘗試,還拉來了第三位成員Ashish Vaswani合作(先後創辦了 Adept AI 和 Essential AI)。

Vaswani(後簡稱瓦斯哥)來自印度,博士畢業于南加州大學後加入谷歌大腦,相信神經網絡将促進人類整體的理解能力。

三位研究人員共同起草了 Transformer 的設計文檔,他們從第一天開始就選擇了同樣代表" 變形金剛 "的這個名字,因為" 系統會改變接收到的信息 ",也因為菠蘿哥小時候喜歡玩變形金剛玩具。

不過菠蘿哥沒過多久就從谷歌離開去創業了,同時,其他成員陸續加入這個小隊伍。

2017 年初,第四位成員Niki Parmar(後簡稱帕姐)加入,他與瓦斯哥同樣來自印度、也都畢業于南加大,後來兩人也成了創業夥伴。

後面幾位成員的加入多少都帶點戲劇性。

第五位Llion Jones(後簡稱囧哥)來自英國,2009 年碩士畢業于伯明翰大學,但有好幾個月找不到工作靠救濟金工作。2012 年他先加入 Youtube 團隊,後進入谷歌研究院。

他是團隊中最晚從谷歌離職的,去年在日本成立了 Sakana AI。

囧哥是從另一位同事Mat Kelcey(他就出現一次,不用簡稱了)那裡聽說 Transformer 的,不過 Kelcey 自己當時并不看好這個項目。

Kelcey 信奉貝葉斯,他的頭像是 AI 預測他是技術宅的概率為 60%。後來他認為沒加入 Transformer 團隊這是他一生中最大的預測失誤。

話說回來,第六位Aidan Gomaz(後簡稱割麥子,現 AI 公司 Cohere 創始人)是最年輕的,他在多倫多大學讀大三時加入 Hinton 的實驗室,主動給谷歌裡各種寫過有意思論文的人發郵件申請合作。

第七位Lukasz Kaiser(後簡稱凱哥,現 OpenAI 研究員)邀請了割麥子參與實習。直到幾個月後,割麥子才知道這實習本來是針對博士生的,而不是他一個大學生。

凱哥來自波蘭,本來做的是理論計算機工作,後來發現自注意力對他們當時正在解決的問題(可分布式計算的大型自回歸模型)是一種有前途且更激進的方案,兩人就加入了 Transformer 團隊。

六人(菠蘿哥已經創業去了)聚到一起後,團隊開始把試驗方向定在機器翻譯,使用 BLEU 基準測試來把模型翻譯結果與人工翻譯做比較。

早期 Transformer 原型表現不錯,但只是與 LSTM 方案差不多,并沒有更好。

此時,第八位關鍵成員Noam Shazeer(後簡稱沙哥)出場了,他畢業于杜克大學,2000 年加入谷歌,當時全公司只有 200 人左右,

後來他成為谷歌内部的傳奇人物,參與了谷歌搜索的拼寫糾正功能,也負責過早期廣告系統,2021 年離開谷歌後創辦了 Character.AI。

據沙哥回憶,當時他正在辦公樓走廊裡走,經過凱哥的工位時聽到激烈的對話:瓦斯哥正在談論如何使用自注意力,而帕姐對此很興奮。

沙哥覺得這是一群有趣的聰明人在做有前途的工作,最終被凱哥說服加入。

至此,8 位傳奇人物終于全部登場。

衝刺 NIPS 聖杯

沙哥的加入至關重要,他用自己的想法重新編寫了整個代碼,把整個系統提升到了一個新的水平。

團隊一下充滿動力,開始拼命卷自己,想在 2017 年 NIPS(後改名 NeurIPS)截止的 5 月 19 日之前完成。

Deadline 前的最後兩周,他們大部分時間都在咖啡機附近的辦公室,很少睡覺。

割麥子作為實習生不斷地瘋狂調試,試驗各種技巧和網絡模塊的排列組合。

最終在沙哥的幫助下,人們現在所知道的 Transformer 架構誕生了,相比試驗中的其他方案顯得非常" 極簡主義 "。他們這樣評價:

Noam(沙哥)是一個巫師。

沙哥厲害,但是沙哥并不自知。看到論文草稿的時候,他發現自己是一作還很驚訝。

讨論一番後,最終他們決定打破學術界一作二作通訊作的規則,随機排序,并給每個人名字後都打上星号,腳注标明都是平等貢獻者。

在給論文取名字的階段,來自英國的囧哥提議借用披頭士樂隊的歌曲《All You Need Is Love》,改成《Attention is all you need》,其他人也同意了。

他們訓練了基礎和大杯兩個模型,其中 65M 基礎版就擊敗了所有同級競争對手,213M 大杯版甚至破了 BLEU 測試的記錄,同時計算效率也更高。

直到截止日期最後幾分鍾,他們還在繼續收集實驗結果,英法翻譯的數據是最後 5 分鍾出來的,論文在最後兩分鍾提交。

當時學術會議審稿人的反應不一,一個評價積極,一個評價非常積極,第三個評價是只是 " 還算 ok"。

到了 12 月會議正式線下舉辦的時候,這篇論文引起了轟動。4 小時的會議上擠滿了想要了解更多的科學家。

參會的幾位作者一直聊到嗓子嘶啞,最後場地閉館時仍然人頭攢動,最後被保安清場。

從整個 Transformer 誕生歷程來看,谷歌當年的開放包容的文化是必不可少的:

這八個人聚在一起,是靠走廊裡的偶遇和午餐時聊天。

OpenAI 摘桃子

回到論文撰寫過程中的某一天,瓦斯哥累得癱倒在辦公室的沙發上,盯着窗簾看出了幻覺,覺得布料上的圖案就像突觸和神經元。

那天他突然意識到,他們正在做的事情将超越機器翻譯。

最終就像人腦一樣,将所有語音、視覺等所有模态統一在一個架構下。

沙哥則在應用方向上有驚人的遠見,論文發表前後就給谷歌高管去了一封信。

他提議公司放棄整個搜索索引,并用 Transformer 架構訓練一個巨大的神經網絡替代,基本上是在建議谷歌改變整個信息組織的方式。

當時團隊裡凱哥都還認為這個想法很荒謬。但如今看來,谷歌正在朝這個方向努力,只是個時間問題了。

烏茲哥後來復盤,在 2019 年或者 2020 年谷歌就有機會推出 GPT-3,甚至是 GPT-3.5 等級的模型,還發出靈魂提問:‍‍‍‍‍

我們看到了可能性,但為什麼不采取行動呢?

結果卻是對手 OpenAI 的首席科學家Ilya Sutskever在論文發表當天就意識到" 它給了我們想要的一切 ",并建議同事 Alec Radford 開始動手研究。

Radford 先開發了 GPT 的原型,然後 OpenAI 調動更多人從機器人、DOTA 遊戲等項目轉型,參與進來開發了 GPT-1、GPT-2 ……這就是另外一個故事了。

打造一種能同時在數據和算力上擴展的模型,是 Transformer 架構的出發點,也是其成功的關鍵。

但少了頂層設計和推動,谷歌也就只能止步于此,單靠員工自發已經無法組織起滿足 Scaling Law 發展下去需要的人力物力财力。

OpenAI 的組織形态既有自下而上的靈活、又有自上而下的專注,能在這條路上走的更遠幾乎是不可避免的。

OpenAI CEO 奧特曼曾評價,谷歌高層當時似乎沒人認識到 Transformer 真正意味着什麼。

如今 8 位作者也陸陸續續從谷歌離職,既然公司遲遲不肯用 Transformer 搞事情,那就自己去搞。

除了最早離開的菠蘿哥的區塊鏈公司之外,其它成員的的去向都和 Transformer 相關。

2019 年,實習生割麥子畢業沒多久,就先帶頭創辦Cohere,為企業提供大模型解決方案,目前估值 22 億美元。

2021 年開始,成員集中出走。

瓦斯哥和帕姐先後攜手創辦Adept AI(估值 10 億美元)、Essential AI(融資 800 萬美元),都是自動化工作流程方向。

沙哥創辦 AI 角色扮演聊天平台Character.AI,現在估值約 50 億美元,用戶活躍度和留存率比 OpenAI 都高。

烏茲哥回到德國創辦的生物 AI 技術公司Inceptive,估值 3 億美元。甚至烏茲哥透露,他的計算語言學家老父親也在籌辦一家新的 AI 公司,同樣基于 Transformer。

只有凱哥沒有創業,2021 年他加入了 OpenAI,後來參與了 GPT-4,以及 Q* 項目。

最後離開的是囧哥,23 年他到日本創辦的Sakana AI估值 2 億美元,最新成果是用擅長不同領網域的大模型融合,結合進化算法,搞出更強的模型。

……

許多谷歌老員工批評谷歌慢慢從一個以創新為中心的遊樂場,轉變為一個注重利潤的官僚機構。

甚至在 2020 年,谷歌 Meena 聊天機器人發布後,沙哥又發了一封内部信"Meena 吞噬世界 ",其中的關鍵結論是:

語言模型将以各種方式越來越多地融入我們的生活,并且将在全球算力中占主導地位。

這太有前瞻性了,幾乎準确預言了後來 ChatGPT 時代發生的事,也就是現在進行時。

但當時谷歌高層仍舊不為所動,關鍵決策者忽略甚至嘲笑他。

谷歌曾擁有整個 AI 王國的所有鑰匙,卻弄丢了鑰匙鏈。

參考鏈接:

[ 1 ] https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

[ 2 ] https://www.youtube.com/watch?v=zBK2CPka5jo

[ 3 ] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們