今天小編分享的科技經驗:GPT-4是8x2200億參數的混合模型?這個小道消息今天傳瘋了,歡迎閱讀。
機器之心報道
編輯:吳昕
George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隐藏什麼黑科技,而是在隐藏一些「不那麼酷」的東西。
「GPT-4 的參數量高達 100 萬億。」相信很多人還記得這個年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實這是一條假消息,并表示,「關于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起。」
實際上,許多人相信并傳播這樣的謠言是因為近年來 AI 社區不斷在增加 AI 模型的參數規模。谷歌在 2021 年 1 月發布的 Switch Transformer 就把 AI 大模型參數量拉高到了 1.6 萬億。在此之後,很多機構也陸續推出了自己的萬億參數大模型。據此,人們有充分的理由相信,GPT-4 将是一個萬億參數的巨量模型,100 萬億參數也不是不可能。
雖然 Sam Altman 的辟謠幫我們去掉了一個錯誤答案,但他背後的 OpenAI 團隊一直對 GPT-4 的真實參數量守口如瓶,就連 GPT-4 的官方技術報告也沒透露任何信息。
直到最近,這個謎團疑似被「天才黑客」喬治・霍茲(George Hotz)捅破了。
喬治・霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發自動駕駛輔助系統的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實是一個混合模型。具體來說,它采用了由 8 個專家模型組成的集成系統,每個專家模型都有 2200 億個參數(比 GPT-3 的 1750 億參數量略多一些),并且這些模型經過了針對不同數據和任務分布的訓練。
在這段播客播出之後,PyTorch 創建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」,很多人可能也聽過,但只有 George Hotz 在公開場合将其說了出來。
「混合模型是你在無計可施的時候才會考慮的選項,」George Hotz 調侃說,「混合模型的出現是因為無法讓模型的參數規模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓練時間更長,效果已經遞減。因此,他們采用了八個專家模型來提高性能。」至于這個混合模型是以什麼形式工作的,George Hotz 并沒有詳細說明。
為什麼 OpenAI 對此諱莫如深呢?George Hotz 認為,除了蘋果之外,大部分公司保密的原因都不是在隐藏什麼黑科技,而是在隐藏一些「不那麼酷」的東西,不想讓别人知道「只要花 8 倍的錢你也能得到這個模型」。
對于未來的趨勢,他認為,人們會訓練規模較小的模型,并通過長時間的微調和發現各種技巧來提升性能。他提到,與過去相比,訓練效果已經明顯提升,盡管計算資源沒有變化,這表明訓練方法的改進起到了很大作用。
目前,George Hotz 關于 GPT-4 的「爆料」已經在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓練一個 LLaMA 集合來對抗 GPT-4。
還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個由 8 個 2200 億參數的專家模型組合的混合模型,那很難想象背後的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正确。有更多線索的讀者歡迎在評論區留言。
George Hotz 采訪内容。GPT-4 相關内容在 49:00 前後。視頻來源:https://www.youtube.com/watch?v=K5iDUZPx60E&t=3030s
參考鏈接:https://twitter.com/soumithchintala/status/1671267150101721090
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]