今天小編分享的科技經驗:大模型套殼祛魅:質疑套殼,理解套殼,歡迎閲讀。
套殼不是核心競争力,把殼做厚才是。
剛剛過去的 2023 年是大模型元年,在國產大模型數量狂飙突進的同時——已經超過 200 個," 套殼 " 一直是萦繞在大模型頭上的輿論陰雲。
從年初到年末,從百度文心一言到零一萬物,從字節跳動到谷歌 Gemini,各種 " 涉嫌套殼 " 的事件屢次衝上熱搜,随後又被相關方解釋澄清。
非 AI 從業者,視套殼如洪水猛獸;真正的 AI 從業者,對套殼諱莫如深。但由于 " 套殼 " 本身并沒有清晰、準确的定義,導致行業對套殼的理解也是一千個讀者有一千個哈姆雷特。
當我們在談論套殼的時候,到底在談論什麼?
抛開具體場景談套殼都是在貼标籤。為了厘清大模型套殼的邏輯,「甲子光年」訪談了一些 AI 從業者、投資人,結合 OpenAI、Meta 以及國内大模型相關技術論文,從一個大模型的 " 煉丹 " 過程入手,看看在哪些步驟、哪些環節,存在套殼的空間。
2024 年或許是大模型大規模落地的元年,一些 AI Native 的應用将會陸續出現。在積極發展大模型應用生态之時,希望行業對于 " 套殼 " 的讨論能夠抛開情緒,回歸事實。
1. 大模型的統一 " 内核 "
為了更好地理解套殼,必須區别 " 外殼 " 與 " 内核 " 的區别。
今天,所有大模型的内核,都起源于 2017 年谷歌大腦團隊(Google Brain,2023 年 4 月與谷歌收購的 AI 公司 DeepMind 合并為 Google DeepMind )發布的 Transformer 神經網絡架構。
Transformer 一經問世,逐步取代了過去的 RNN(循環神經網絡)與 CNN(卷積神經網絡),成為 NLP(自然語言處理)前沿研究的标準範式。
在 Transformer 誕生的十年前,有一部好萊塢大片《變形金剛》在全球上映,這部電影的英文名字就叫 "Transformers"。就像電影中能夠靈活變身的變形金剛一樣,作為神經網絡架構的 Transformer 也可以通過改變架構組件與參數,衍生出不同的變體。
Transformer 的原始架構包含兩個核心組件——編碼器(Encoder)與解碼器(Decoder),編碼器負責理解輸入文本,解碼器負責生成輸出文本。在 Transformer 的原始架構上 " 魔改 " 衍生出三個變體架構——只采用編碼器(Encoder-only),只采用解碼器(Decoder-only),以及兩者的混合體(Encoder-Decoder)。
這三個變體架構分别有一個代表性模型——谷歌的 BERT ,OpenAI 的 GPT 系列模型,以及谷歌的 T5。今天,這三個模型名稱通常也指代了其背後的模型架構名稱(後文也以此指代)。
Transformer 的模型架構圖,左側為 Encoder,右側為 Decoder。圖片來自谷歌論文
在 2020 年之前,NLP 的模型研究基本都是圍繞算法展開,基于 BERT、T5 與 GPT 架構的模型百花齊放。這一時期模型參數較小,基本都在 10 億以内量級。其中,谷歌 BERT 的表現獨領風騷,基于 BERT 架構的模型一度在閲讀理解的競賽排行榜中屠榜。
直到 2020 年,OpenAI 發布一篇論文,首次提出了 Scaling Laws(尺度定律),NLP 的研究才正式進入大模型時代——大模型基于 " 大算力、大參數、大數據 ",模型性能就會像摩爾定律一樣持續提升,直到 " 智能湧現 " 的時刻。
在此期間,GPT 架構的性能表現逐漸超越 BERT 與 T5,成為大模型的主流選擇。今天百億參數以上的主流大模型中,除了谷歌最新發布的 Gemini 是基于 T5 架構,幾乎清一色都是從 GPT 架構衍生而來。可以説,GPT 完成了一場大模型架構内核的大一統。
大模型進化樹,其中 GPT 系列枝繁葉茂。圖片來自 Github,作者 Mooler0410
從大模型的進化脈絡來看,今天所有的模型都是在 " 套殼 " Transformer 以及其三個變體架構。
當然,Transformer 也有 " 不願套殼 " 的挑戰者。比如,2023 年 12 月 5 日,兩位分别來自卡内基梅隆大學與普林斯頓大學的教授,發布了一款名為 "Mamba"(曼巴)的新架構,在語言建模性能媲美 Transformer 的同時,還解決了一些擴展性的局限。但這個新架構的具體表現,還需要時間的檢驗。
模型架構選擇只是第一步。百川智能創始人、CEO 王小川在一個月前的 2023 甲子引力年終盛典上将大模型訓練比作 " 炒菜 ",模型架構只是一個菜譜。要想得到一盤完整的菜,還需要烹饪,也就是大模型訓練的過程;以及食材,也就是數據。
大模型的烹饪過程可以粗略地分為預訓練(Pre Train)與微調(Fine-Tune)兩大階段。
預訓練是大模型訓練最核心的環節,通過把大量的文本信息壓縮到模型中,就像一個學生寒窗苦讀的過程,來讓模型具備世界知識。OpenAI 創始人之一、特斯拉前 AI 總監安德烈 · 卡帕西(Andrej Karpathy)在 2023 年 5 月的微軟 Build 大會上透露:" 預訓練就是在超級計算機中使數千個 GPU 以及可能進行數月時間來處理互聯網規模數據集的地方,占據訓練時間的 99%。"
在漫長的預訓練之後會得到一個基座模型(Base Model),在基座模型的基礎上加入特定行業的數據集做進一步的微調,就會得到一個微調模型(Fine-tuning Model),或者稱為行業模型、垂直模型。
微調通常分為兩個步驟—— SFT(有監督微調)+RLHF(人類反饋強化學習),其中 RLHF 是 OpenAI 的創新設計,它決定了模型能夠與人類意圖與價值觀對齊,是訓練一個可靠的對話模型不可或缺的環節。
預訓練成本極高,因此每年或幾個月才會做一次。OpenAI 訓練 ChatGPT 大約花費了大約 1200 萬美元,Meta 訓練 Llama 65B 花費了 500 萬美元。相比之下,微調成本較低,可能只需要短短幾天甚至一天。
正因如此,只有充足的算力、财力的大公司與資本支持的雄心勃勃的創業公司,才會涉足基座模型。" 百模大戰 " 中的國產大模型數量雖然多,但只有大約 10% 的模型是基座模型,90% 的模型是在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。其中,應用最廣、性能最好的開源基座模型,目前就是 Meta 的 Llama 2。
從大模型的訓練過程來看,沒有人會對架構選擇—— " 套殼 " Transformer 有異議。但圍繞架構之後的預訓練,成為了一個套殼與否的隐秘角落。
2." 原創派 " 與 " 模仿派 "
預訓練是大模型最核心的環節,也是 " 套殼 " 與 " 自研 " 争議較多的環節。
前面提到,模型架構只是大模型的菜譜——目前有 BERT、T5 與 GPT 三大菜譜,而每個菜譜上會有具體的菜名——預訓練框架。按照預訓練框架的菜譜炒菜,就是預訓練的過程。
一個可以肯定的事實是,所有的定位做基座模型的公司,都是從頭開始投入真金白銀做了完整的預訓練,但菜譜的由來,卻抽成了兩派。
第一派,就是标準意義的 " 自研派 ",從菜譜開始研究,自研了預訓練框架。
這一派的共同點就是布局較早,可以追溯到 2020 年之前,遠遠早于 ChatGPT 誕生而打響的大模型競賽的發令槍。
百度是其中一家。2019 年,百度就發布了自研的預訓練框架 ERNIE,也就是今天的文心大模型,今天已經更新到 ERNIE-4.0。值得一提的是,谷歌 BERT 與百度 ERNIE 名字取材于美國著名兒童節目《芝麻街》中的角色,兩者是一對好友。
《芝麻街》中的 ERNIE 與 BERT,圖片來自網絡
另一家早期自研預訓練框架的大模型公司是智譜 AI 。智譜 AI 成立于 2019 年,并在 2020 年底開始自研預訓練框架 GLM。GLM 與 谷歌 T5 相似,也是基于 Encoder-Decoder 架構。2022 年 11 月,斯坦福大學大模型中心對全球 30 個主流大模型進行了全方位的評測,GLM-130B 是亞洲唯一入選的大模型。
百度與智譜 AI 之外,還有一部分閉源大模型沒有公開自己的技術細節,代表性公司為 Minimax、月之暗面等。有投資人對「甲子光年」表示,這幾家也有自己的預訓練框架,但無法準确核實。
總的來説,國内基于自研預訓練框架的大模型公司數量較少,大約只有 5 家左右。
第二派大模型公司也從頭開始做完整的預訓練過程,但預訓練框架是在開源框架——主要是 Llama 2 的基礎上修改部分參數而來,可以稱之為 " 模仿派 "。
對于開源社區而言,這是一套非常正常的做法,開源的意義就是公開自己的研究成果,促進技術的交流與共享,讓開源社區内更多的研究者受益。
Llama 2 也是站在過去開源模型的肩膀上一步步發展而來。比如,Llama 2 的模型架構中, Pre-normalization(預歸一化)受 GPT-3 啓發,SwiGLU(激活函數)受 PaLM 的啓發,Rotary Embeddings(位置編碼)受 GPT-Neo 的啓發。其他模型也經常魔改這幾個參數來做預訓練。
零一萬物創始人李開復表示:" 全球大模型架構一路從 GPT2 --> Gopher --> Chinchilla --> Llama 2-> Yi,行業逐漸形成大模型的通用标準,就像做一個手機 app 開發者不會去自創 iOS、Android 以外的全新基礎架構。"
值得強調的是,模仿 Llama 2 并非代表沒有核心競争力。零一萬物在文章中提到,模型訓練過程好比做一道菜,架構只是決定了做菜的原材料和大致步驟,要訓練出好的模型,還需要更好的 " 原材料 "(數據)和對每一個步驟細節的把控(訓練方法和具體參數)。
" 原創派 " 與 " 模仿派 ",到底孰優孰劣?對于這件事,需要分開讨論。一句話總結來説,原創派賭的是未來,模仿派賭的是現在。
一位投資人對「甲子光年」表示:"Llama 2 并非一個完美架構,還有較大的局限性,有機會做到 GPT-3.5 的水平,但是如何做到 GPT-4 的水平,目前還沒有看到辦法。如果底層技術架構一直受制于 Llama 2,想要超越 GPT,怕是機會很小。"
這位投資人所在的投資機構投資了多家大模型公司。在做投資決策時,自研預訓練框架與否,也是他們的衡量标準之一。
一位 AI 公司的研發人員告訴「甲子光年」,自研預訓練模型的優勢在于擴展能力比較強," 如果基于開源,都是有版本限制的,比如 Llama 2 只有 7B、13B、70B 三個版本,再多就沒有了,想再搞大規模一點,搞不了 "。
不過,理想很豐滿,但原創預訓練架構的優勢,目前還存在于理論階段。短期來看,無論是自研還是模仿 Llama 2,兩者都處在 GPT-3.5 的水平,性能差距不大。
另一位 AI 投資人對「甲子光年」表示:" 現階段,開源框架基本已經達到了 GPT-3.5 的水平,所以,如果選擇從頭自研一個與開源框架水平一樣的預訓練框架,不如直接選擇模仿 Llama 2 效率更高、穩定性更可靠,除非有能力自研一個達到 GPT-4、甚至下一代 GPT-5 能力的模型。這裏的能力指的是有技術能力,且有足夠的資金持續投入,因為目前預期是 GPT-5 的訓練可能需要 3-5 萬張 H100,成本在 10-20 億美金。"
現階段,大家比拼的并不是預訓練框架的性能,而是工程化的能力,業内一般稱為 AI Infra —— AI 基礎設施。
昆侖萬維 AI Infra 負責人成誠将大模型發展分為了三個階段:2020 年之前的算法研究階段,2020~2023 年的數據為王階段,以及 2023 年的 AI Infra 階段。
他預測,未來大模型算法研究必然朝着 Infra 的方向去探索: 稀疏化(Sparse Attention、 Sparse GEMM / MoE) 将會是 2024 年學術界與工業界的主戰場。
3. 薅 GPT 的數據羊毛
在預訓練完成之後,來到了微調階段。實際上,這一階段才是大部分 " 套殼 " 大模型翻車的原因,它與數據集的質量有直接關系。
數據的使用貫穿在大模型預訓練、SFT、RLHF 的每個階段。在預訓練階段,數據 " 在多而不在精 "。由于預訓練使用互聯網公開數據,不同大模型最終所獲得的知識儲備是趨近的。
明顯的差異點發生在微調階段,數據 " 在精而不在多 "。比如,Llama 2 的研究人員在做微調時發現大部分第三方的 SFT 數據集多樣性與質量都不足,因此他們自己構建了 27540 個高質量标注數據集,可以顯著提高 SFT 的效果。
但不是所有的公司都像 Meta 一樣财大氣粗。有沒有更高效的獲取高質量數據集的方式?
有,通過 " 偷 " ChatGPT 等對話模型的數據。
這裏的偷并非指盜竊,而是直接利用 ChatGPT 或 GPT-4 等對話模型生成的數據來做微調。這些合成數據,既保證了數據的多樣性,又是經過 OpenAI 對齊後的高質量數據。
美國電商初創公司 Rebuy 的 AI 總監、深度學習博士 Cameron R. Wolfe 将這種大模型研究方式稱為 " 模仿學習 "(Imitation Learning),并表示模仿學習明顯受到 " 知識蒸餾 "(Knowledge Distillation)的啓發。
知識蒸餾是一種機器學習得標準的模型壓縮方法,它将復雜的模型看做 " 教師模型 ",把簡單的模型看做 " 學生模型 ",通過老師教學生的方式将知識遷移過去。
模仿學習的原理,圖片來自 Cameron R. Wolfe 的博客
在 Meta 發布了 Llama 1 系列模型後,迅速在開源社區催生了各類模仿模型的誕生,比較知名的包括由斯坦福大學、加州大學伯克利分校等高校機構推出的 Alpaca、Vicuna、Koala,以及 NomicAI 推出的 GPT4ALL,這些模型都用到了 ChatGPT 的對話數據來做微調。
值得一提的是,OpenAI 在服務條款中明确禁止使用 ChatGPT 生成的數據開發與 OpenAI 競争的模型。所以,上述模仿模型不能用于商業用途。
但事實上,各類商業模型都在通過 " 偷 " 數據的方式來走微調的捷徑,這已經是公開的秘密,并且不限國别。
2023 年 12 月,字節跳動、谷歌 Gemini 的 " 疑似套殼 " 事件正是來源于此。根據字節跳動的回應,2023 年初部分工程師曾将 OpenAI 的 API 服務應用于實驗性的模型研究,但并未上線,後來已經禁止該行為。從現實角度來説,字節跳動 " 只是犯了一個天下所有模型都會犯的錯誤 "。
一位做 NLP 研究的科學家告訴「甲子光年」:"OpenAI 可能預感到字節跳動可以花錢堆一個模型出來,所以提前打壓一下。但實際上,這對于限制字節跳動訓練大模型沒有任何效果,純粹就是想‘辱罵’一下。"
谷歌 Gemini 也是類似情況。由于缺乏高質量的中文數據集,谷歌極有可能通過文心一言獲得大量的中文對話數據來做 Gemini 的 " 老師 "。但是,或許因為追趕 OpenAI 心切,數據清洗、自我認知對齊等工作沒有做到位,導致 Gemini 把老師文心一言當成了自己。
一位國產大模型公司的算法工程師向「甲子光年」吐槽道:" 大家相互薅羊毛,要用,但要小心用,一不小心就尴尬了。"
4. 把 " 殼 " 做厚才是競争力
在預訓練階段模仿 Llama 2、在微調階段 " 偷 " ChatGPT 的數據,是兩類產生 " 套殼 " 争議的主要場景,也是大模型訓練過程中決定模型能力的關鍵場景。如果把範圍擴展到模型的推理與應用," 套殼 " 的場景還會更多。
前語雀設計師,現 AI 助手 Monica 聯合創始人 Suki 在即刻上分享了 " 套殼 " 的四重進階:
一階:直接引用 OpenAI 接口,ChatGPT 回答什麼,套殼產品回答什麼。卷 UI、形态、成本。
二階:構建 Prompt。大模型可以類比為研發,Prompt 可以類比為需求文檔,需求文檔越清晰,研發實現得越精準。套殼產品可以積累自己的優質 Prompt,卷 Prompt 質量高,卷 Prompt 分發。
三階:Embedding 特定數據集。把特定數據集進行向量化,在部分場景構建自己的向量數據庫,以達到可以回答 ChatGPT 回答不出來的問題。比如垂直領網域、私人數據等。Embedding 可以将段落文本編碼成固定維度的向量,從而便于進行語義相似度的比較,相較于 Prompt 可以進行更精準的檢索從而獲得更專業的回答。
四階:微調 Fine-Tuning。使用優質的問答數據進行二次訓練,讓模型更匹配對特定任務的理解。相較于 Embedding 和 Prompt 兩者需要消耗大量的 Token,微調是訓練大模型本身,消耗的 token 更少,響應速度也更快。
如果把模仿 Llama2 架構做預訓練也算進去,可以看做第五階。這五重進階,基本囊括了大模型 " 套殼 " 的每一個場景。
值得一提的是,上述行為能否被稱為 " 套殼 ",在業内也説法不一。
算法工程師劉聰對「甲子光年」表示:" 我覺得,只有一種情況算套殼——直接做 API 的買賣,比如説一些免費使用大模型的網站,用來收集數據、倒賣數據。其他情況其實都不算。在 to B 行業,要做行業化的解決方案,只會套殼不可能做到;就算是 to C,如果有自己對產品的理解,也不能説是套殼。難道做大模型應用的都是套殼嗎?"
" 套殼這個詞,貶義太嚴重。" 劉聰説道。
脱離具體的場景談論 " 套殼 ",都是貼标籤的行為。當行業褪去了對套殼的污名化理解,把不同進階的套殼行為看做一類正常的商業行為,才能更加理性客觀地分析大模型的優劣。
只是,大模型廠商在宣傳的時候,應當更謹慎地使用 " 自研 ",以及具體解釋自研的内容。否則,只會加劇理解的困惑。
" 套殼 " 有競争力嗎?Suki 認為,一個 AI 應用產品如果停留在做一階和二階,注定是個門檻極低的產品,沒有任何壁壘。而什麼場景,何時以及如何使用三階和四階的能力,是個關鍵性的問題。
一位算法工程師告訴「甲子光年」,大模型真正關鍵的問題在于業務的成本結構和護城河,而不是套殼與否。
把成本降低、把 " 殼 " 做厚,自然就產生了競争力。