今天小編分享的财經經驗: 迷茫中的大模型從業者:瘋狂的時代正在過去,歡迎閲讀。
本文來自微信公眾号:新浪蜂鳥,作者:孫宇,編輯:餘樂樂,原文标題:《新浪蜂鳥 | 大模型從業者的理性與感性:瘋狂的時代正在過去》,題圖來源:AI 生成
這是中國互聯網歷史上人工成本最高的行業:應屆生年薪收入即可高達百萬,入職碩士起步,多數崗位甚至僅限博士。
這也是中國互聯網歷史上人工成本最低的行業:頭部公司開始衝擊十萬卡規模,這意味着數十億美元的算力投入。
這就是國產大模型創業公司的研發人員們正在面臨的終極困境,一方面他們非常重要,一方面他們又不那麼重要。
在過去兩年時間裏,大模型的熱浪正席卷整個科技圈。從業者們将其視為推開下一個 20 年科技行業大門的鑰匙,藴含着無數機會,他們期待着在這裏生長出下一個 BAT,并将技術真正變為财富。
近日," 新浪蜂鳥 " 對話幾位正在或曾在國產大模型創業公司工作的員工,嘗試記錄下在這接近兩年時間裏,這些彷徨、進擊者們身上正在發生的故事。
交流過程中,幾乎所有人都重復過這樣一句話," 大模型可能是中國科技公司未來十年内遇到的最好機會。"
但每個人對這個機會的理解卻完全不同:
" 短時間内看不到(盈利)機會,正在考慮換個賽道。"
" 還是大廠更穩定,不如回流。"
" 幹成這件事,能青史留名,失敗了也沒有壞處。"
三種不同的回答,或許就是中國大模型創業公司們能夠最終交出的答案,放棄、被收購以及,一夜成名。
被擠爆的郵箱
2023 年年初,已經在某互聯網大廠裏待了接近十年的金陽決定尋找新機會。
在屬下眼裏,金陽是超級技術 " 大牛 ",校招進入該公司後僅一年時間内就連升三級,打破公司原有的更新 " 潛規則 ";随後又獨立拉起一支小團隊,獨當一面,在幾次部門業務變動中巋然不動。
但在 2022 年年底,金陽卻感到了一絲寒意,他所在的事業部不斷裁員。
更重要的是,公司抽調部分技術人員專攻大模型,金陽做了調組申請,卻未被批準。
此時,由 ChatGPT 引發的人工智能風潮剛剛從大洋彼岸刮向國内,國產大模型行業忽然爆發,占據舞台中央的除了傳統大廠百度、阿裏、騰訊、字節跳動外,諸多創業公司也開始進場。
這一階段在當時被媒體稱為 " 百模大戰 ",不過金陽卻對作者表示,國内能夠真正自主訓練基礎大模型的企業最多時也未超過 30 家," 在這 30 家裏,能夠真正完成通用大模型開發的不足 10 家。"
投資人常兵則對作者表示,在 2022 年年底、2023 年年初美國和中國大模型公司呈現出百花齊放的共同特點,但經過兩年優勝劣汰,資源正在向頭部玩家不斷聚攏," 目前美國仍在持續開發通用大模型的僅剩下五家,OpenAI、Anthropic、Meta、谷歌以及馬斯克旗下的 xAI;中國方面以商湯、曠視、雲從與依圖科技為代表的 AI 四小龍退場,取而代之的是以百川智能、零一萬物、智譜 AI、MiniMax、月之暗面與階躍星辰為代表的六家大模型獨角獸企業。"
内部調崗失敗的 " 大牛 " 金陽很快被大模型創業公司們盯上,一夜之間他的郵箱裏多了很多獵頭發來的郵件," 以前也有其他互聯網大廠或者創業公司發來邀請,但 2023 年初時這樣密集确實非常少見。"
離開還是留下?金陽很快就做出了決定," 公司還在持續優化,未來難測,大模型才是未來幾年裏最好的機會。"
和他一起離開的還有六個人,這也是去年上半年大模型創業公司搭建隊伍的基本模式,從大廠成建制的帶走相關開發團隊," 大模型開發需要極高的技術背景,至少在去年上半年,這批人才幾乎都在大廠。"
盡管目前大模型創業公司均已開始進行校招,但是從大廠接手成熟員工仍然是一個重要的招聘方式," 我手裏還有幾個招聘名額,方向還是瞄準大廠,即插即用。"
不過金陽也坦承,現在在大廠挖人可能性逐漸降低,阿裏、百度、騰訊、字節的大模型團隊都在 2022 年年底以及 2023 年上半年重新補籤了一遍競業協定。
無疾而終的兩連跳
2024 年年初,凌輝從一家大模型創業公司跳槽去了大模型六小虎其中一家," 原來那家融資太不順了,感覺可能要出問題。"
他的職業生涯開始于 2021 年,碩士畢業後順利進入某大廠實習并最終轉正,年薪為 40 萬。當時凌輝還覺得自己是一個幸運兒,因為彼時就業情況糟糕,大廠頻頻裁員且減少校招名額。
這份幸運感在大模型的狂風吹來後變成了悔意," 當時不應該因為焦慮就業而沒有繼續讀博。" 看到自己同門師弟在博士畢業後拿到接近 80 萬年薪時,凌輝覺得自己也應該換個環境。
和幾位師兄弟溝通後,凌輝敏鋭的發現,在春招以及秋招過程中,大廠往往采用 " 掐尖 " 模式進行招聘," 只有在相關專業前 5% 的應屆生才能得到機會,碩士基本上是最低門檻。" 凌輝将這種模式稱為," 只選貴的不選對的。"
大廠光環以及高工資的确讓大廠在搶奪大模型人才的争奪戰中身位領先,如百度啓動的 "AIDU 計劃 "、騰訊青雲計劃中的 "AI 大模型招聘單獨通道 "、字節旗下豆包大模型團隊設立的 "top seed" 種子計劃,即便是後起之秀美團也推出了 " 北鬥計劃 "。
但對于凌輝這樣有一定技術經驗但又不是頂尖人才的求職者來説,以六小虎為代表的創業公司或許更為适合," 創業公司更看重專業對口,最好有工作經驗。"
一位同門師兄曾經的經歷是凌輝期許的目标,2011 年時這位師兄在一年時間裏歷經三家團購網站并最終被挖進阿裏,年薪上漲四倍有餘,目前是阿裏某部門的 M4(總監)。
不過在常兵看來,大模型行業與中國歷史上幾乎所有的互聯網行業都不一樣," 中國互聯網公司喜歡燒錢挖人,因為行業最強烈的需求是人,多一個員工就多一個產出;而大模型行業的核心是在極少量頂尖人才與基礎算力投入,多一個人和少一個人的差别很小。"
據脈脈相關數據顯示,在 2023 年與 2024 年期間最為受大模型行業歡迎的人才依然是 NLP 算法工程、深度學習等底層技術人才,而中低層算法工程師跳槽時薪水幾乎不會有什麼變化。
報告顯示在從事⼤模型相關⼯作後,僅有一半從業者實現漲薪,其中漲幅 50% 以上占⽐僅為 16%。
值得關注的是,今年 10 月中旬字節跳動大模型訓練被實習生 " 投毒 " 事件讓行業選擇員工時多了一絲謹慎。
據作者了解,該事件發生在商業化團隊,因實習生田某某對團隊資源分配不滿,利用 HF 漏洞,通過共享模型注入破壞代碼,導致團隊模型訓練成果受損。
11 月底時,字節跳動起訴該實習生,訴訟請求為 800 萬侵權損失加合理支出 2 萬元。
經歷此事件後,某大廠負責相關招聘的人員對作者表示,現在對于大模型相關的招聘其實已經非常謹慎,盡管放出的崗位很多,但如果達不到要求," 寧可空着。"
凌輝最終選擇離開這個行業,目前仍在尋找工作的他對大模型只有一個評價,"(目前)不是一個好機會。"
大廠小創新,小廠大創新
和金陽、凌輝一樣,夏明也來自某家互聯網大廠,在 2023 年上半年和自己的上級一起跳槽到了大模型六小虎中的一家," xx(原公司)升職通道已經基本上關閉了,大模型才是中國互聯網公司難得的機會。"
但才加入新公司不久,夏明就感覺到了迷茫," 待遇的确得到提升,但實在太累了,幾乎每天都加班到 10 點甚至更晚。去年年底公司開始大小周,沒有任何人有反對意見。"
在作者與某六小虎公司一位負責招聘的人員對話中,該人員介紹,盡管公司融資情況良好、目前也有業務收入,但招人的過程依然 " 不順利 "," 在面試過程中,很多求職者依然對大模型的未來抱有疑慮;同時,一些員工也因為工作太累覺得看不到希望而流失。"
最終夏明回到了他原來工作的大廠,接替了原來領導離職時留下的位置," 安穩、熟悉,每天大部分時間都用來應付内部溝通,反而更自由。"
如同夏明做出同樣選擇的人并不罕見,今年下半年,序智科技創始人秦禹嘉、零一萬物模型預訓練負責人黃文灏先後加入字節跳動,而零一萬物的聯合創始人李先剛則被爆出已回到原公司貝殼。
而在海外,一些大模型創業公司人員也在回流大廠。今年 11 月底,谷歌大模型重要參與者 Yi Tay 在離職創業一年半後宣布回到谷歌。
值得關注的是,谷歌在此前還曾以 25 億美元的超高估值帶走了 AI 獨角獸 Character.AI 的核心技術團隊,其中包括兩位明星創始人 Noam Shazeer 和 Daniel De Freitas。
值得關注的是,在進入 2024 年後國内互聯網大廠對大模型的态度變得沒有那麼激進。常兵對作者表示," 現在大廠相對比較克制,更傾向于用投資進行資源置換确保不掉隊,自己投入大量資源的動力不足。
比如某大廠最近開放的大模型,核心内容是将自己的獨家資源拿出來搜索,這件事的本質是開放而不是大模型。"
" 大廠小創新,小廠大創新現在幾乎就是大模型圈裏的共識。" 常兵如此對作者表示。
據作者不完全統計,在國產大模型六小虎中,阿裏巴巴已投資了除面壁智能以外的其他五家,騰訊則投資了百川智能、MiniMax、智譜 AI、月之暗面,其中後兩家的投資名單中也有美團出現。
随着騰訊、阿裏多位大模型高管先後離職,目前在大廠中僅存字節跳動仍對大模型持有激進态度。脈脈數據顯示,2021 年以來,字節跳動連續第四年位居新發布 AI 崗位數量第⼀,在多個大廠中對大模型人才的招聘指數最高。
今年開始,字節豆包的廣告在小紅書、B 站甚至百度上無處不在,夏明對作者介紹,豆包的日活應該已經在 " 千萬級别 "," 這個投放量别説大模型六小虎,其他大廠也沒有一個能做到的。"
堅守者仍眾
除了回歸大廠,大模型行業仍在不斷流失人才。
今年 7 月,阿裏大模型元老、通義千問奠基性人物楊紅霞從字節跳動離職,入職香港理工大學擔任電子計算機系教授;
同樣在下半年,月之暗面多位出海產品負責人離職創業,而在年初時他們還失去了大模型產品負責人王冠;
MiniMax" 星野 " 產品負責人張前川在近日淡出公司一線管理事務,改任產品顧問;11 月下旬,騰訊傑出科學家、混元大模型技術負責人之一劉威正式從騰訊離職。
但更多的人仍在堅守,2017 年年中何方從某大廠離職,随後一直活躍在人工智能行業,在先後加入 AI 四小龍中的兩家後,2023 年年初時從某社交平台跳槽至大模型六小虎中的一家并工作至今。
" 從來沒有這麼忙過," 最近一個月何方幾乎每天都加班到 10 點以後," 大模型絕對是現在中國互聯網企業裏最忙的,xxxx(大模型六小虎另外一家)前一段不知道為什麼每天都能正常下班,但最近又恢復了每天加班的常态。"
脈脈數據顯示,超過 65% 的大模型從業者每周工作超過 50 小時,接近三分之一的從業者每周甚至工作超過 60 小時。
" 最大的問題是 ChatGPT5.0 還沒有公布,所以大家不知道下一個階段往哪裏走,只能在原有的基礎上不斷深化。" 何方的觀點得到了常兵認可," 已經有大模型創業公司開始進入自己擅長的行業,但目前大模型創業公司還是以訓練通用大模型為主。"
好消息是,盡管大模型六小虎在過去一年裏減少了部分員工,但幾乎都集中在運營部門,技術研發幾乎沒有人員流失。何方對作者表示," 大模型最燒錢的不是人力成本,而是訓練成本和算力投入。因為大家都還沒跑通模式,所以每家公司都還控制在幾百人這個規模。如果未來國内大模型公司能有一個相對比較成熟的商業化模式或用户模式,甚至還有可能繼續進行大規模招聘。"
堅守者們更關心的是行業的未來,何方所在的研發團隊經常會在加班間隙一起讨論三個問題," 能不能賣?賣給誰?怎麼賣?"
沒有答案。
這樣的讨論場景在此前的 AI 創業公司裏較為罕見," 與 AI 四小龍時代不同,大模型創業公司在創業之初很早就開始考慮商業化以及國際化業務。" 常兵對作者介紹," 而這個行業的求職者最為關注的也不僅僅是大模型技術的發展以及公司融資情況,而是會考慮公司的大模型業務是否有落地場景。"
" 明年年中或許是個分水嶺,大模型或許是個很厲害的產品,但也可能會像人臉識别一樣變成一個通用技術。" 有過人臉識别從業經驗的何方如此對作者表示。
一場猛烈的價格戰
今年年中,大模型行業猝然爆發了一場兇猛的價格戰。
5 月初,私募巨頭幻方量化旗下 AI 公司 DeepSeek 宣布開源第二代 MoE 大模型 DeepSeek-V2,百萬 tokens 只需 1 元;大模型六小虎之一的智譜 AI 随後跟進,價格直接降至原來五分之一;價格戰的參與者還有幾乎所有大廠,字節跳動、阿裏、百度、騰訊以及科大訊飛也紛紛降價。
這場價格戰被常兵評價為兩個字," 可笑 "," 互聯網行業價格戰基本出現在公司跑馬圈地階段,即在大家都很熟悉的領網域,通過價格優勢來打擊其他對手,獲得規模效應。但大模型現在根本談不上穩定收入,價格戰毫無意義。"
在常兵看來,大模型公司發起價格戰核心原因無非兩點,為大廠其他業務求利潤或創業公司求用户。
對于大廠來説,價格戰僅僅局限在 token 降價,下遊企業在獲取大模型 API 後需要通過投喂數據、模型微調等方式進行優化和部署,這部抽成本沒有任何變化。以阿裏旗下 Qwen-Turbo 大模型為例,百萬級别 token 僅需要 2 元,但繼續訓練則至少需要花費 30 元,具體部署時每月費用更是高達 2 萬。
百度雲千帆大模型平台也與之類似,盡管大模型 token 可以免費調用,但後期相關環節均需要單獨付費且價格不菲。
而在大廠發起大模型價格戰背後,雲計算業務成為了實際獲利方。百川智能發布會上,創始人王小川表示,(價格戰)根本目标不是為了賣大模型本身,而是帶動整套雲服務銷售。獵豹移動董事長兼 CEO 傅盛也在朋友圈發文稱,這次價格戰,降得最兇的都是有雲服務的大公司,通過大模型來獲取雲客户,羊毛出在豬身上,降得起。
對于大模型創業公司來説,發起價格戰的根本目的也不是跑馬圈地,本質上 " 是為了讓客户體驗模型能力 ",常兵對作者表示,越多人用對大模型公司越有利," 首先是可以讓 B 端客户體驗模型能力并在本地部署等高淨利業務完成付費,同時通過 C 端用户的使用,對大模型進行進一步優化。"
價格戰後,行業的競争格局產生了細微變化。
下半年時,有消息稱有着大模型六小虎中已有兩家正在放棄預訓練模型,縮減預訓練算法團隊人數,将業務重心轉向 AI 應用。
金陽和何方先後對作者證實了這一消息,金陽所在的大模型公司正是被外界傳聞中放棄預訓練的一家。不過金陽也對作者強調,公司并未完全放棄預訓練模型,只是暫時更多嘗試 AI 應用," 説實話,誰也不知道未來會發生什麼,所有的大模型公司都還在碰。"
這樣的回應并不讓人意外,所有通用大模型核心就是預訓練,是決定模型性能最關鍵的内容,也是所有模型廠商最核心的技術壁壘。
金陽對作者表示,通用大模型研發很像九年義務制教育,必須要全面學習基礎知識,才能進入大學選專業乃至未來就業環節," 如果大模型公司放棄預訓練,轉向應用,就意味着在基礎知識還未夯實的情況下進入大學。"
To B or not to B
當通用大模型公司把手放在轉向燈的按鈕上準備按下時,心頭浮現的疑問是,轉型應用層後,無論 to B 還是 to C,公司還能像過去兩年一樣,持續獲得融資和人才嗎?
一個殘酷的事實是,大模型公司可能快撐不住了。
數據顯示,在過去 3 年時間裏大約有 2.6 萬家大模型創業公司融資超過 3000 億美元;而在中國市場上,六小虎們的融資也是以數億美元進行計算。但随着 AI 能力快速進化,訓練成本也呈指數性膨脹趨勢。
Anthropic 公司聯合創始人兼首席執行官 Dario Amodei 在一場公開讨論中透露,Claude 3 模型訓練費用已高達約 1 億美元;正處于研發階段并預計于 2024 年底或 2025 年初面世的新一代模型,其訓練成本更是逼近 10 億美元。
馬斯克曾估算,ChatGPT5.0 訓練可能需要 3 萬至 5 萬張 H100,僅芯片成本就超過 7 億美元,約等于一家獨角獸企業的一大半市值。
據 Amodei 預測,到 2025 年或 2026 年,訓練最新大語言模型的成本将達到 50 億至 100 億美元。
僅極少數财力雄厚的大公司及其合作夥伴有能力構建這些基礎模型。
這意味着大模型創業公司們需要繼續融資,或至少有一定程度的變現能力。
比如 To B?
在今年 7 月舉辦的一場大模型會議中,與會的大模型創業企業幾乎都未提及通用人工智能,而是紛紛讨論如何落地。
但至少在最近一兩年,to B 并不是一個成熟的答案,金陽和何方均對作者表示,目前大模型只能在某些數字化已經成熟的行業進行重點突破," 比如金融、醫療、互聯網以及能源,成規模復制到所有行業幾乎不可能。"
與美國同行完全不同,美國大模型公司可以輸出相對标準、單一的產品,因為各行業數字化程度較高,而在國内,大模型創業公司們往往需要面對各行各業的定制化需求以及數字化程度完全不一致的窘境。
更麻煩的是,随着美國大模型企業不斷開源、國内大廠不斷發動價格戰,大模型創業公司通過 to B 賺錢的方式愈發艱難," 賣的越多,賠的越多。"
何方對作者表示," 公司現在上線一些業務,都是悄悄地不做宣傳,甚至 app 都沒有上線各大應用市場。"
那麼,Not to B?
六小虎之一的 MiniMax 給出了不錯的答案,在海外市場。" 内部開會溝通時顯示 MiniMax 已經處于盈利狀态," 金陽對作者表示," 營收大部分來自聊天機器人社交應用 Talkie。" 根據 MiniMax 公開表示,其計劃在今年實現 7000 萬美元即約 5 億元人民币的營收。
這也是中國互聯網公司們的成熟路徑,以社交、支付等日常應用打造一個超級 App,即人工智能時代的微信、抖音或者支付寶。盡管金陽、夏明和何方均對此抱有期待,但是不太看好," 國内在短時間内不可能產生一個所謂的超級 app,國外用户有良好的訂閲習慣,但國内用户更習慣免費。"
大模型的瘋狂似乎正在過去,也沒人能真正預測未來,好消息是,在這些仍在堅守的開發者眼中,國產大模型絕不會成為下一個無疾而終的元宇宙。
" 如果能把這件事做成了," 何方的眼裏依然有光," 我們可能就會成為中國科技發展史上最值得紀念的一批人。"
(應被訪者要求,金陽、凌輝、夏明、何方、常兵均為化名,同時應被訪者要求,部分大廠名稱、部分大模型創業公司名稱隐去)