今天小編分享的互聯網經驗:英偉達最大的風險,在很少人關注的角落裡!,歡迎閱讀。
今年的英偉達确實 " 猛 ",不遺餘力拼算力似乎已經成了科技巨頭們的共識,部分原因在于,不少大模型都以對算力需求較高的 Transformer 為架構,而如果在不斷迭代的過程中,Transformer 逐步被對算力需求少的架構取代,這是否也将成為英偉達的 " 潛在風險 "?
投資了 OpenAI 勁敵 Cohere 的著名風險投資家、Radical Ventures 合夥人 Rob Toews,在 9 月 3 日發布的專欄文章指出,Transformer 在訓練時支持并行化,與 GPU 的 " 爆火 " 時間點吻合。GPU 擁有更多流處理器,适合對密集數據進行并行處理和并發計算,非常适合且支持基于 Transformer 的計算工作流負載。
毫無疑問,Transformer 的架構非常強大,徹底改變了 AI 界,但缺點也明顯,當文章長度變長,計算復雜度就變得非常高,同時,随着模型規模不斷擴大,所需計算量呈指數級增加,這兩點都讓 Transformer 的算力需求激增。
Toews 指出,為了彌補 Transformer 存在的問題,包括 Hyena、Monarch Mixer、BiGS、MEGA 等提出了用 Subquadratic 方法來降低運算復雜度,減少算力需求。
Toews 直言,盡管這些架構距離挑戰 Transformer 的 " 王座 " 仍有較大差距,但不可否認的是,AI 發展過程中新鮮的事物接連出現,不斷更新換代的過程中,或許沒有什麼是永遠屹立不倒的。
當算力需求激增之時,從某種程度上說,誰手握英偉達 GPU,誰就掌握了 AI 時代最硬的 " 硬通貨 "。而如果在未來 Transformer 被對算力需求不高的架構取代,那對最大 " 賣鏟人 " 英偉達來說将構成一定威脅。
Transformer 的龐大計算成本
2017 年 6 月 12 日,《Attention is All You Need》論文橫空出世,讓大模型領網域變天的 Transformer 架構出現了。截至 9 月 4 日,Transformer 誕生超過 6 周年,而這篇論文被引用高達 87345 次。分析指出,基于 Transformer 不斷擴展的大模型們,都是以處理性能和功耗方面的高昂成本為代價。因此,雖然人工智能的潛力可能是無限的,但物理和成本卻是有限的。
為什麼 Transformer 對算力的要求如此之高?
Toews 解釋稱,主要有以下兩個原因 :1. 注意力(attention)機制的計算復雜度,2. 越發龐大的模型規模:
Transformer 的基本原理是使用自注意力機制來捕獲序列數據中的依賴關系,無論它們的距離有多遠。
注意力機制需要将序列中每個詞與其他所有詞進行配對比較,這導致運算量随序列長度的平方增長,即計算復雜度為 O ( n^2 ) 。這種平方級復雜度使得随着文本長度增加,所需計算成本急劇上升。
與此同時,Transformer 架構可以更好地擴展大模型,所以研究者不斷基于 Transformer 訓練更大規模的模型。目前主流的語言模型參數量達到了數百億級甚至萬億級,需要大量算力支持。随着模型規模的擴大,所需算力呈指數級上漲。
谷歌母公司 Alphabet 首席财務官 Ruth Porat 在财報電話會上表示,由于需要投資 AI 基礎設施,資本支出将比去年的創紀錄水平 " 略高 "。
微軟最新報告顯示,該公司季度資本支出超出預期,首席财務官 Amy Hood 稱原因為加大 AI 基礎設施建設。
微軟在今年年初又向 OpenAI 砸了 100 億美元,為了支撐起大語言模型訓練所需的龐大計算資源費用。成立僅 18 個月的初創公司 Inflection 也融資超過 10 億美元用于構建 GPU 集群,以訓練其大語言模型。
英偉達 GPU 在市場的 " 哄搶 " 中陷入產能瓶頸。最新的 H100 芯片早已全部賣空,現在下單要等 2024 年第一季度甚至第二季度才能排上隊。
Toews 指出,上述種種都不難看出,基于 Transformer 的模型對計算資源的需求之大,以至于當前的人工智能熱潮引發了全球 GPU 供應短缺,硬體制造商無法跟上激增的需求。
Transformer 面臨的難題
同時,Toews 指出,Transformer 處理的句子長度受限,已有的方法大多使用截斷的方式,這會導致信息損失,因此如何實現長文本的預訓練是目前的一大難題。
而這場 AI 軍備競賽注定還将持續下去,如果 OpenAI、Anthropic 或任何其他公司繼續使用 Transformer 架構,那麼它們模型的文本序列長度會受限。
Toews 指出,人們已經進行了各種嘗試來更新 Transformer 架構,仍然使用注意力機制,但能夠更好地處理長序列。然而,這些改進後的 Transformer 架構(如 Longformer、Reformer、Performer、Linformer 和 Big Bird)通常會犧牲部分性能,因此未能獲得采用。
Toews 強調,沒有一樣事物會是完美的,歷史的發展也不會停下腳步,盡管 Transformer 在現在占據絕對的優勢地位,但它也并非沒有缺點,而這些缺點為新的架構打開了大門。
" 王位 " 挑戰者出現了?
Toews 認為,現在尋找可以替代 "Transformer" 的架構成了最有潛力的領網域,而其中的一個研究方向是用一種新的函數替代注意力機制。包括 Hyena、Monarch Mixer、BiGS、MEGA 等提出了用 Subquadratic 方法來降低運算復雜度,減少算力需求。
Toews 強調,斯坦福和 Mila 的研究人員提出了一種名為 Hyena 的新架構,具有代替 Transformer 的潛力,它是一種無注意力、卷積架構,可以匹配注意力模型的質量,同時可以降低計算成本。在次二次多項式 NLP 任務上表現出色:
據稱,Hyena 可達到與 GPT-4 同等的準确性,但使用的算力比後者減少了 100 倍。這是第一個能夠在總 FLOPS 減少 20% 的情況下與 GPT 質量相匹配的無注意力架構,具有成為影像分類的通用深度學習運算符的潛力。
Toews 表示,需要注意的是,最初的 "Hyena" 研究是在相對小的規模下進行的。最大的 "Hyena" 模型具有 13 億個參數,而 GPT-3 有 1750 億個參數,而 GPT-4 據說達到 1.8 萬億個參數。因此針對 "Hyena" 架構的一個關鍵測試将是,在将其擴展到當前 "Transformer" 模型規模的情況下,它是否能繼續表現出強大的性能和效率提升。
Toews 認為,而液态神經網絡是另一個具有取代 "Transformer" 潛力的架構。麻省理工學院的兩名研究人員從微小的秀麗隐杆線蟲(Caenorhabditis elegans)中汲取靈感,創造了所謂的 " 液态神經網絡 " (liquid neural networks)。
據稱,液态神經網絡不僅速度更快,而且異常穩定,這意味着系統可以處理大量的輸入而不至于失控。
Toews 認為這種較小的架構意味着液态神經網絡比 "Transformer" 更加透明且更易于人類理解 :
畢竟,對于人類來說,更容易解釋具有 253 個連接的網絡發生了什麼,而不是擁有 1750 億個連接的網絡。
當架構不斷改進,逐漸減少了對算力的依賴,是否也意味着會對未來英偉達的營收產生影響?