今天小編分享的科技經驗:不是大模型用不起,而是小模型更有性價比,歡迎閱讀。
到了年末,又到了喜聞樂見的 "2024 大預測 " 環節。
今年最熱的 AI 賽道中,機構們自然也得下一些判斷,比如說:
2024 年大模型的一個趨勢,是将變得 " 越來越小 "。
這種趨勢其實已經出現一些端倪,在遍地都是千億級參數量的千模大戰下,今年 9 月,法國 AI 初創公司發布了 Mistral-7B。
身為一個參數量僅為 70 億的模型,所有基準性能卻都超越了參數量為 130 億的 Llama 2,公司估值達到 22 億美元。
今年 12 月,谷歌一口氣推出了三種規格的 Gemini:Ultra、Pro 和 Nano,其中最小的 Nano 則準備直接在移動設備上運行,有 18 億參數量和 32.5 億參數量兩個版本。
同時,微軟也在 12 月推出了參數量僅為 27 億的模型 Phi-2。
它不僅在性能上超越了 Mistral-7B,甚至跟參數量 700 億版本的 Llama 2 之間的差距也不大,在一些說明中,其性能已經接近甚至很快會超越自身體量 25 倍的模型 [ 1 ] 。
在這些參數量越來越小的模型一次次震驚 AI 界之前,大語言模型有一個心照不宣的法則——參數量越大,性能就越好。
畢竟大模型的參數量可以簡單理解成 " 模仿人類大腦的神經元連接 ",更多的連接意味着更多的知識儲備空間和產生更復雜的思維鏈條的可能性,所以更大的參數量 = 更強的性能其實并沒有錯。
人類的大腦大概有 860 億個神經元,能形成差不多 100 萬億個神經元鏈接。目前大模型界的扛把子 GPT-4,參數量達到了 1.76 萬億。
即便不能簡單換算,但顯然即便是 GPT-4 也還有很大的進步空間。
可怎麼明明沒達到人腦水平,就要開始降低參數量了?
一、大模型太貴了
這還是要從 OpenAI 和它的 ChatGPT 說起,據數據監測網站 Down for Everyone or Just Me 的記錄,從今年 11 月底至今,ChatGPT 已經宕機 5 次。
11 月 7 日,Open AI 首屆開發者大會上,一口氣公布了 GPT-4 Turbo、影像識别、文字轉語音、GPTs 等重磅功能,躍躍欲試的用戶太多,以至于隔天 ChatGPT 和 API 就因為伺服器超負荷而故障了兩個多小時 [ 2 ] 。
11 月 15 日,Open AI 的 CEO 奧特曼(Sam Altman)直接宣布暫停新的 GPT Plus 注冊,直到 12 月中旬才逐步重新開放。
來源:X
這實際上反映的是超大參數量帶來的第一個問題:伺服器負載。
大模型加上大訪問量,對算力的需求是個無底洞,據安信證券測算,目前 ChatGPT 每天所需的算力約 50EFLOPs,所需伺服器約 1 萬台 [ 3 ] 。
若 ChatGPT 的用戶量繼續保持上漲,假設到 24 年底用戶數量為 5 億,則需要 23 萬台伺服器,但 2022 年全球 AI 伺服器的出貨量僅為 13 萬台。
伺服器需求分為兩方面,一者是包括買 GPU 在内的動辄七八位數的訓練成本,比如據奧特曼透露,GPT-4 的開發成本超過 1 億美元。
據研究機構 Epoch AI 統計,訓練尖端模型所需的算力每 6 到 10 個月就會翻一番 [ 7 ] 。
經濟學人雜志在這個趨勢上進行了推算,如果 "10 個月翻一番 " 的理論站得住腳,那到 2026 年訓練一個頂尖模型的成本要超過 10 億美元。
在現階段雖然還有諸多公司願意為了這個 " 遙遙領先 " 的地位去燒錢搏一把,但随着競争格局逐漸清晰,往死裡堆參數的公司顯然會越來越少。
這些還都只是一次性開支,咬咬牙也就忍過去了。
真正難以承擔的,其實是當模型推出給大眾後,日常使用過程中所產生的龐大推理費用。
對于一個大模型來說,回答用戶 " 今天氣溫多少度 " 和 " 如何造一枚原子彈 ",假設都只推理一次的情況下,其成本其實是一樣的,而前者的需求反而更加龐大。
等于說,科技公司提供了一輛超跑級别的性能野獸,但大多數用戶的需求就是拿它送外賣。
大摩也算過一筆賬,如果把谷歌當前一半的搜索量交給 ChatGPT 去處理,那每年要憑空多花 60 億美元。
這種成本上的巨大負擔,成為了科技公司們另尋它路的首要原因,就像阿爾特曼在今年 4 月份他在 MIT 的一次演講中說 [ 9 ] :
" 我們已經到了大模型時代的盡頭,是時候想點其他的辦法來提升模型性能了。"
比如說,小模型。
二、不是大模型用不起,而是小模型更有性價比
前身是斯坦福 AI 實驗室的 Snorkel AI 做了一個試驗,分别用 GPT-3 微調和自己搭建小模型的方式去訓練一個法律領網域的垂直模型。
GPT-3 的微調和搭建成本是 7418 美元,1 萬次推理花費 173 美元,而自己搭建小模型的成本僅有 1915 美元,1 萬次推理也只要花費 0.26 美元 [ 8 ] 。
而且 GPT-3 微調出來的垂直模型正确率為 71.4%,僅僅比小模型的 71.3% 好了一點點。看在 GPT-3 模型參數量是小模型 1400 倍的份上,表現好也是正常的。
但是抛開表現看一下成本:小模型的建造成本是 GPT-3 微調的 1/4,推理成本是 GPT-3 微調的 1/1000。
在這種級别的成本差異面前,0.1% 的差距似乎顯得沒那麼難接受了。
更為關鍵的是,現在已經有諸多論文詳述了 " 如何在更少參數量的前提下,實現更強的能力。"
比如說谷歌 DeepMind 的 Chinchilla 模型,其憑借 700 億的參數量,在表現上超過了參數量為 1750 億的 GPT-3。這裡雞賊的是,Chinchilla 的參數量雖然比 GPT-3 小,但是它的訓練語料庫卻比 GPT-3 要大 5 倍。
簡單來說,他們的思路是,讓每一個參數都變得更有價值。
DeepMind 團隊發現,自己訓練了 400 個模型之後發現了一個規律,為了達到最佳的訓練效果,當模型參數量翻倍時,訓練語料庫也應該翻倍 [ 10 ] 。
于是他們遵循這個規律,在 1.4 萬億個 token 上訓練出來了 700 億參數的 Chinchilla,語料庫的 token 和參數量比達到了 20:1。
而相比之下, Open AI 在 3000 億個 token 上訓練出來了 1750 億參數的 GPT-3,語料庫的 token 和參數量比連 2:1 都沒有達到。
DeepMind 在更大的語料庫上花了更多的時間訓練出了 Chinchilla,雖然參數量僅有 700 億,但這 700 億都是精華,由此保障了性能。
還有另一種方式,學術名叫知識蒸餾(Knowledge distillation),咱們俗稱 " 偷師 " 或者 " 改進 "。
簡單來說,這種方式可以高效地将大型復雜模型裡的知識,轉移到更小更簡單的模型中 [ 11 ] 。
知識蒸餾的概念也是辛頓教授一篇論文中所提到的,說白了就是讓大模型去吸收浩瀚宇宙中的無窮知識,把學出來的結果傳授給小模型。
就像牛頓總結出的那些物理學定律一樣,咱們作為學生只要拿來應用就行了。
具體來說,比如你給教師模型一道題:有一個人拿着一套高爾夫球杆,那他最有可能去下面哪個地方?
A. 俱樂部
B. 禮堂
C. 冥想室
D. 會議室
E. 教堂
教師模型想要得到答案,他需要知道 ABCDE 這五個地方一般進行什麼活動,什麼人會去,去了會帶些什麼做些什麼動作,高爾夫球杆在這些地方有沒有可能發揮作用,将這些龐大的數據分析後,最終得出結論,只有在俱樂部有可能使用。
而學生模型則不需要關于這五個地方的詳細信息,教師模型已經給這五個地方分别打好了标籤總結出了規律,從而迅速得出結論,只有 A 選項符合要求。
回答:答案應該是需要用到高爾夫球杆的地方。上述的選擇裡面,只有俱樂部裡能用到,所以我的答案是 A. 俱樂部。
學生模型在看到教師模型的回答後,不僅記住了俱樂部跟高爾夫球杆有關聯這個知識點,也知道了遇到相似問題的時候的解題思路。
NLP/AI 領網域的專家猜測,轟動一時的歐洲之光 Mistral 7B 就是通過知識蒸餾的方式訓練出來的。
來源:Medium
雖然 Mistral 的訓練方式目前還是保密的,但是創始人 Arthur Mensch 在訪談中提到過,在大模型的基礎上通過蒸餾和合成數據來訓練出質量更高的小模型,這種方法是可行的。
縱觀下來,小模型和大模型實際上并不是一種競争關系,而是面對算力成本和應用推廣兩大難題下的一種優化合作。
就如同三體人操控地球的方式是阻止基礎物理的發展一樣,沒有大模型奠基,也就沒有站在其肩膀上的小模型。
成本問題解決了,實現方法也有了,推理效率還能夠保證,剩下的就是商業化的應用場景了。
三、端側 AI,小模型的天堂
相較于千億參數大模型不得不部署在雲端伺服器,占用超級計算機的算力,小模型最大的優勢實際上是能部署在端側。
比如放進随身攜帶的手機裡,不再占用超算算力降低成本不說,其響應速度完全不在一個量級上。
由于手機芯片在空間上的局限性,其算力上限在摩爾定律尚未被打破前基本是可以算得出來的,想要讓 AI 真正走進千家萬戶,目前來看只能是将模型瘦身裝進手機裡最為現實。
對于手機端 AI 的前景,高通的 CEO 安蒙(Cristiano Amon)認為 [ 4 ] :" 我們将看到以應用為中心的用戶界面發生改變,生成式 AI 将成為人與應用之間的接口。"
而各家手機廠商确實也是這麼做的。
小米放出直接搭載在新一代手機系統中的 60 億參數模型,可以回答問題、寫文章、寫代碼、做表格。
Vivo 的藍心小 V 也是定位為融合到手機系統裡的全局智能助理,可以聽人話、看文字、讀檔案,能幫用戶做計劃定日程 [ 5 ] 。
榮耀下一代旗艦機 Magic 6 直接支持動動嘴皮子,讓手機自己去相冊找視頻素材,剪輯成片的功能。
OppoFind X7 也宣布讓 70 億參數的 AndesGPT 真正地裝進手機,并實現内存和存儲空間的進一步優化。
谷歌的 Pixel 8 Pro 今年 12 月已經用上了自家的 Gemini Nano,不過目前只有兩個比較簡陋的應用:一是在錄音 APP 裡對音頻進行自動摘要,二是通過谷歌鍵盤進行智能回復 [ 6 ] 。
2000 年前後,用撥号上網下載一個 1GB 的檔案大概要上千元,到了今天 1GB 的流量在手機上也就幾毛錢。這種成本的大幅降低,實際上才是互聯網普及的關鍵。
同理,AI 想要普及,問題的關鍵還是成本。
但恰巧,成本問題是咱們最擅長的環節,看看拼多多、Shein 如何做到全球最低價,看看華為是如何讓非洲普及 5G,看看印度人鍾愛小米。
如果說美國最擅長技術上的突破,那麼中國最擅長的則是:
讓技術帶來的普惠走進千家萬戶。