大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

黃仁勳對話Transformer七子:我們被困在原始模型裡,還需要更強大的新架構

2024-03-22 简体 HK SG TW

今天小編分享的互聯網經驗:黃仁勳對話Transformer七子:我們被困在原始模型裡,還需要更強大的新架構,歡迎閱讀。

作者 | 陳斯達

編輯 | 鄧詠儀

英偉達的萬眾矚目 GTC 大會第三天,黃仁勳又憋出一個大招——集齊 "Transformer 七子 ",來一場圓桌讨論。

這場對談讓觀眾們回到 AI 浪潮 " 夢開始的地方 " —— 2017 年,谷歌大腦團隊發表了一篇名為 Attention is all you need 的論文,其中所提出的 Transformer 架構,為當下大熱的 ChatGPT、Gemini 等大模型打下基礎,人工智能領網域從此變天。論文的八位作者,也被稱為 "Transformer 八子 "。

不過,八位作者後來也陸續離開谷歌。除 Lukasz Kaiser 留在 OpenAI 外,其他幾位作者都選擇離開創業,他們創立的很多公司,也成為這一波浪潮中的當紅炸子雞。

"Transformer 八子 " 分别是:

Ashish Vaswani,EssentialAI 聯合創始人兼 CEO

Noam Shazeer,Character.AI 首席執行官兼聯合創始人

Jakob Uszkoreit,Inceptive 聯合創始人兼首席執行官

Llion Jones,SakanaAI 聯合創始人兼首席技術官

Aidan Gomez,Cohere 聯合創始人兼首席執行官

Lukasz Kaiser,OpenAI 技術人員

Illia Polosukhin,NEAR Protocol 聯合創始人

Niki Parmar,EssentialAI 聯合創始人(因家庭原因未出席)

來源:GTC 2024

除了其中一位作者因家庭原因未能出席,其餘幾位都現身對話現場。能湊齊 " 七龍珠 ",也顯示出如今如日中天的英偉達排面有多大。

同時,這也是一場關鍵的產業對話——算力是大模型的核心燃料。此次 AI 浪潮中,英偉達作為供應商,又極大受益于大模型激增的算力需求。

對談開始前,觀眾排長隊入場,圖源:X

一小時裡,作者們不僅回溯了 Transformer 的誕生,對模型技術發展的問題和未來路徑的看法,也直戳要害:

目前基于 Transformer 的主流模型,基礎架構和論文剛發表時進步不多

動用萬億參數資源進行簡單計算會帶來浪費,關注自适應計算才能高效分配計算資源

當前模型太實惠,規模還太小,一美元百萬 token 比買本書的成本便宜得多

讓更多人用上模型,使其不斷互動才能變得聰明,待在實驗室裡并不會造福世界

推理是下一個重要的進步節點,能提升數據訓練效率,產生更有價值的結果

對話實錄部分要點整理

Transformer 因何橫空出世?

Illia Polosukhin:如果要做出能真正讀取搜索結果的模型,比如做到處理成堆的文檔,當時的遞歸神經網絡(RNN)并不能滿足這樣龐大的信息處理需求。

Noam Shazeer:團隊開始探讨用卷積或者注意力機制來取代它。蒸汽機也能實現工業革命,但 Transformer 就像内燃機讓一切變得更加高效。而随着模型規模的增大,智能程度也随之提高。只是在預測下一個 token,它就會變得如此聰明,夠做一百萬個不同的事情。只要想辦法擴大規模,就能讓它變得更好。

Ashish Vaswani:那些可以擴展的通用架構最終将在長期中勝出。今天的 token 是明天計算機行動的體現,它們開始模仿我們的活動,并自動化我們的工作。Transformer 自我注意,并使梯度下降變得更快。這是一種重復的主題,每次我們創建規則樣本時都會體現。

Llion Jones:我想出了「Attention Is All You Need」這個标題。我們當時還在嘗試做一些切除工作,嘗試扔掉模型的一部分,令我們驚訝的是,甚至在扔掉所有的卷積的時候,模型會變得更好。

Transformer 命名來由

Jakob Uszkoreit:我們喜歡這個名字。模型使用了這樣一種邏輯,改變了數據生產模式。所有的機器學習都是 Transformer,都是颠覆者。

Noam Shazeer:我之前覺得這個名字過于簡單,但很多人喜歡。我之前想過很多的名字,比如 Yaakov,最終确定了 "Transformer"。名字描述了模型的原理,因為它實際上轉換了整個信号,按照這個邏輯,幾乎所有的機器學習都會被轉換。

Llion Jones:我們确實意識到,正在嘗試創建一種非常通用的方法。它确實可以讓任何東西之間相互轉化。我們當時并未預測到這将會有多麼成功。它是如此有趣,以至于我們可以将影像翻譯成文本,将文本翻譯成影像,翻譯文本到文本。

Jakob Uszkoreit:在生物學研究的應用中,我們可以将其稱為生物軟體。起初是一個程式,然後編譯成可以在 GPU 上運行的形式。基本上,生物軟體的生命始于對特定行為規範的需求,比如在細胞中生成大量特定蛋白質,然後通過深度學習将其轉譯成 RNA 分子。但實際上,一旦進入細胞,就會表現出這些行為。所以,這個概念不僅是英語翻譯成計算機代碼還涉及到藥物的規範,即完全轉化為實際的分子藥物。

需要有超越 Transformer 的東西

Aidan Gomez:在推理方面,已經做了很多工作加速模型的進化,但又與我們先前的形式非常相似。我認為世界需要比 Transformer 更好的東西。我覺得現在與六七年前的情況相似。

Llion Jones:我認為需要有明顯的進步。如果只是稍微改進,那還不足以讓整個人工智能行業轉向新局面。所以盡管原始模型可能不是現在可擁有的最強大的東西,但我們仍然固守在原來的模型上。

Jakob Uszkoreit:現在浪費了很多計算資源。我們更關注計算資源分配的問題,而非一味擴大資源總量。我們不希望在一個容易的問題上花太多資源,也不想看到在一個太難的問題上花的資源過少,而得不到解決方案。

Illiya Polosukhin:就像 2+2,如果輸入到模型,就會使用一萬億個參數。所以自适應計算是接下來必須出現的。我們要關注,在特定問題上具體要花費多少計算資源。

為何離開谷歌 & 以後想做什麼?

Ashish Vaswani(Essential AI):我們真的想理解并復制人類的認知目标,而不是簡單模仿他們在做什麼,因為這最終将改變我們與計算機互動以及工作的方式。我離開的一個主要原因是,讓這些模型變得更聰明的唯一方式,就是把它們放到人們手中。不可能在實驗室中讓模型變得更聰明。你必須讓它們走向世界,讓世界與這些模型互動,從中獲取反饋,并讓它們變得更聰明。

Noam Shazeer(Character.AI):我離職時,心裡最大的挫敗感就是,令人難以置信的技術,還無法觸及每個人。而它有如此多的用途,如此簡單易用。我們的最終目标是幫助全世界每個人。所以我必須離職創業,讓這些發生。

Jakob Uszkoreit(Inceptive):我更多意識到,這項技術能比以前更廣泛地改善人們的生活質量。我的第一個孩子在疫情期間出生,這讓我重新認識到生命的脆弱性。幾周後,用于蛋白質結構預測的 AlphaFold 2 用于蛋白質結構預測的結果公布,Alpha Fold 2 比 1 的一個重大變化是使用了 transformer 架構來取代其他模型架構,因此它在分子生物學領網域可以投入使用。再過幾周,mRNA COVID 疫苗的功效結果公布,RNA 尤其是 RNA 世界假說的潛力變得非常明确——用 RNA 就能完成生命中的任何事情,但長期以來數據一直很少,在某種程度上它是分子生物學領網域的 " 遺孤 "。所以這幾乎成為了一種道德義務,必須有人去做。

Llion Jones(Sakana AI):我是最後一個離開谷歌的。目前我還處于非常早期的階段。我試圖向加入的研究人員灌輸的核心理念是,學習總是對的。任何時候,如果你嘗試從人工處理某事轉向讓計算機自己搜索最優解,你總是會赢的。事實上,最初的深度學習革命就是一個例子,我們不再進行人工特征工程,而是直接學習,效果好多了。所以我想提醒大家,有了大量計算資源後,我們除了在狹義的意義上訓練大型語言模型外,還可以利用它來探索當前手工工程的搜索空間。

Aidan Gomez(Cohere):我認為這項技術能夠改變世界。但現實中一切都沒有改變,面對的是停滞狀态,存在着技術發展與現實世界之間的差異,對我們這些了解内情的人來說是一種不協調感。所以我希望能夠彌合這一差距。我們創建了一個平台,讓每個企業都可以采用和集成這項技術到他們的產品中,而不是直接面向消費者。但這是我們想要推廣該技術、讓它更容易獲取、更便宜且更有競争力的方式。

Lukasz Kaiser(OpenAI):我最終加入了 OpenAI。當我加入時,OpenAI 正是擁有最好的 Transformer 模型的地方。在那家公司,我們知道可以利用大量數據和計算資源創造出優秀的東西。我當時還抱有一個希望,即使沒有大量數據,只要有更多計算資源就行。

Illia Polosukhin(NEAR Protocol):我們正在從事的一項工作就是,創造一種全新的方式,讓人們為超酷的模型貢獻數據。它在區塊鏈領網域擁有全球最多的用戶,有數百萬的日活躍用戶,他們甚至都不知道自己在使用區塊鏈。但他們正在與這種可編程貨币價值進行互動。現在我們開始利用它來重新構建一些工具,以生成更多數據。雖然在這可能是有争議的,但 70 年代的版權技術需要改變,我們正迎來一個新的生成時代。目前我們獎勵創作者的方式已經被打破。唯一的解決方案是利用可編程貨币、可編程價值和區塊鏈。

推理是下一個重要的發展方向

Llion Jones:推理是下一個重要的發展方向。很多人已經意識到了這一點,并且正在致力于研究。但是目前很多工作都是手工設計的,我們在手工編寫提示信息,然後嘗試讓它們以我們認為合适的方式進行互動。當然,我們實際上應該搜索這個領網域,學習如何将它們連接起來,打造出我們想要的功能強大的模型。

Jakob Uszkoreit:我們希望模型生成的内容能夠符合人類的消費需求。這些模型應該接受我們喜歡或可以接受的所有刺激作為訓練數據。因此,任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息,包括時序信息,都應被納入訓練數據中。

Lukasz Kaiser:如果你有一個能夠進行推理的模型,然後你只需要一點點數據。它就會進行一系列的推理,從中產生結果。由此,就能夠從更少的數據中進行泛化,因為它在推理過程中進行了大量計算。當我們弄清楚了這一切,就将極大地減少數量。但數據的質量也會變得更加重要。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們