4個月搓出3款大模型，王小川偷了大廠的“家”

今天小編分享的科技經驗：4個月搓出3款大模型，王小川偷了大廠的“家”，歡迎閱讀。

圖片來源 @視覺中國

‍‍‍‍‍‍ 文 | 驚蟄研究所，作者 | 小滿

今年 4 月，沉寂一年多的王小川宣布進入 AI 大模型領網域再次創業，與 COO 茹立雲聯合成立大語言模型公司百川智能。在媒體溝通會上，王小川發布了未來 20 年借助語言 AI 要完成的目标，包括構建中國最好的大模型底座，在搜索、多模态、教育和醫療等方面增強，幫助大眾輕松、普惠地獲取世界知識和專業服務。

令人意想不到的是，僅僅過了 4 個月，百川智能就接連推出 Baichuan-7B、Baichuan-13B 系列、Baichuan-53B 三款大模型。其中 8 月 8 日發布的 Baichuan-53B 參數量級達到 530 億，如期完成了王小川 " 在今年三季度發布一款參數量級在 500 億以上的大規模產品 " 的 KPI。

從離開大眾視野到重回創業舞台，以及選擇大模型這一時下最熱門的風口賽道，王小川的復出很難不吸引人們的關注。而眼下随着百川智能以驚人的效率不斷進行產品迭代與更新，人們在大廠雲集的大模型賽場上，也開始多了一些與眾不同的期待。

" 遲到 " 的百川智能

作為曾經的天才少年以及大眾印象中典型的 " 理工男 "，王小川做事向來審慎，而在選擇大模型創業這件事情上，他卻罕見地表現出狂熱的情緒。

今年 2 月，美團聯合創始人王慧文在朋友圈發布了自己的 " 人工智能宣言 "，宣布個人出資 5000 萬美元設立北京光年之外科技有限公司，将打造中國 Open AI。而據極客公園媒體報道，王小川在看到王慧文的高調宣言後，也曾準備對外宣布入局大模型領網域。

王小川的激動不無道理。科技創業賽道通常存在時間視窗，特别是對于大模型這類新興技術而言，越早公開項目越容易争奪到有限的技術人才和資金資源。而且大模型對數據和訓練量有着極大的需求，搶先發布產品能夠吸引合作機構和用戶參與内測，為大模型提供充足的數據并不斷訓練模型，推動算法迭代和產品更新。

所以當王慧文拿出 5000 萬美元，并宣布已有頂級 VC 以 2.3 億美元認購下輪融資的 " 英雄帖 " 時，無疑加劇了大模型創業團隊的人才争奪。頗為有趣的是，在王慧文宣布大模型創業一個月後，被稱為 " 搜狗輸入法之父 " 的馬占凱随即在社交平台上宣布加入光年之外。而百川智能在籌備階段，也吸引了搜狗原有班底以及其他大廠領軍人物的加入。

盡管情緒上有些激動，4 月份官宣的百川智能還是比光年之外晚了将近 2 個月，相比光年之外的 2.3 億美金融資，百川智能 5000 萬美元的啟動資金也顯得有些單薄。但 " 遲到 " 并不意味着落後，相反這 2 個月讓王小川想清楚了很多事情。

從 Open AI 的發展歷程中可以看到，雖然前後融資超過了 100 億美金，但 Open AI 真正開始 " 燒錢 " 也是在 GPT-3 正式發布開始大規模訓練之後。據國盛證券估算，GPT-3 的單次訓練成本高達 140 萬美元，一些更大的 LLM（大型語言模型）的訓練成本則介于 200 萬美元至 1200 萬美元之間。因此，對于剛剛起步的百川智能來說，5000 萬美元足以完成項目初期從 0 到 1 的產品設計。

其實在資金之外，大模型項目更關鍵的還是人才積累問題。Open AI 的 736 名員工中，就有 123 名來自于谷歌、Meta 以及蘋果公司的核心人才，半數以上員工曾在硬體或軟體公司工作。技術人才的積累，是 Open AI 在研發方面保持着一流水平的主要原因。而百川智能在最近 4 個月裡，已經将團隊規模翻倍。

4 月份接受采訪時，王小川透露到月底團隊成員将達到 50 人。而截至目前，百川智能的員工規模已經達到 113 人左右。其中，技術人員的比例占 70%-80%。作為一家成立不到半年的創業公司，百川智能的官宣或許有些 " 遲到 "，但從結果來看，一切都在按照王小川的計劃進行。

王小川的自信從何而來？

雖然起步晚，但百川智能 4 個月發布 3 款大模型的驚人效率，表現出了後發制人的競争意識，并且每一款產品的體驗方面也呈現出了差異化的優勢。

早前 Baichuan-7B 和 Baichuan-13B 的跑抽成績就曾令圈内人士眼前一亮。在清華大學、上海交大、愛丁堡大學聯合創建的評測标準 C-Eval 中，Baichuan-7B 經過 52 個學科的測評，最終獲評 34.4 分，在同量級產品中排名第一。

國際中 / 英文權威評測數據集 ( 2023 年 6 月 15 日 )

Baichuan-13B 則在自然科學、醫學、藝術、數學等領網域大幅領先 LLaMA-13B 等同量級的大語言模型，在社會科學、人文科學等領網域超過了 ChatGPT。而在 MMLU 基準上，Baichuan-13B 超過了所有同量級開源模型。

對于最新發布的 Baichuan-53B，王小川給出的評價是文科能力更好，也就是說 Baichuan-53B 能夠很好地理解語言泛化背後的含義，具備理解古詩、生成風格化文章的能力。對此，驚蟄研究所使用 Baichuan-53B 内測版進行了測試。

在連續面對 " 請寫一首以夏天為主題的五言絕句 " 的要求時，Baichuan-53B 給出的 4 首詩文存在明顯的重復。其中，4 首絕句的最後一句都是 " 荷花盛開滿池塘 "，3 首的前兩句都是 " 夏日炎炎列日照，綠樹成蔭鳥兒叫。" 并且每首詩相同的段落描寫的都是相同的意象，似乎是按照同一個模板排列組合而成。類似的現象，驚蟄研究所在使用百度的文心一言進行對比測試時，并沒有發生。

對于生成風格化文章的能力，驚蟄研究所要求 Baichuan-53B 分别以徐志摩、卡夫卡和柯南 · 道爾的風格 " 寫一條朋友圈，講述我今天吃了肯德基這件事 "。從結果來看，雖然内容結構上也非常相似，但 Baichuan-53B 很好地抓住了三位作家的寫作風格。

最令人驚喜的是，在 " 扮演 " 柯南 · 道爾寫作的文案中，Baichuan-53B 還提到作者的代表《福爾摩斯探案集》以及其中的貝克街，讓人感覺到 AI 不是在單純地模仿作家風格生成内容，而是在生成作家自己的 " 朋友圈 "。

由此看來，Baichuan-53B 在内容生成方面不僅僅具備一定的理解能力，能夠模仿不同的文學風格，在表述上也更像是人，而不是基于大數據和算法對現有數據進行排列組合。這也難怪王小川會自信地表示，" 我們這個模型在文科領網域走前列。"

" 百模大戰 " 剛剛開場

ChatGPT 問世以來，大模型風口吸引了越來越多的玩家，從科技大廠到創業公司都開始将大模型作為自身的最大亮點，竭力追逐行業熱點。基于這一行業背景，王小川在官宣以創業的形式入局大模型時遭到了質疑，不少網友都表示當前大模型賽道大廠林立，獨立團隊很難有機會。坦白說，截至目前，整個行業都還停留在 " 外行看熱鬧 " 的階段，這也反映了國產大模型團隊仍然遊離在 B 端和 C 端市場之間的現狀。

一個典型的現象是，OpenAI 借助 ChatGPT 成為全球頂尖 AI 公司後，國内一眾科技公司紛紛宣布推出類似 ChatGPT 的 " 聊天機器人 "" 圖片生成器 "，并且學習 Meta 等科技大廠将大模型開源免費商用。但從實際效果來看，這種 " 百模大戰 " 更像是為了搶關注、掙流量。

大模型開放免費商用之後，給誰用、怎麼用，誰又真的會用？這一連串的問題沒有人問，真正使用了免費大模型的企業也不會主動宣揚。" 聊天機器人 " 的出現，很大程度上只是為了證明科技公司具備一定的技術能力，而現階段大模型的商業化手段，仍然以 B 端市場為主。

例如百度的文心大模型涵蓋基礎大模型、任務大模型、行業大模型的三級體系，廣泛應用于電力、燃氣、金融等產業領網域；騰訊的混元大模型，則主要是幫助騰訊生态實現降本增效，在廣告領網域可以自動生成廣告文案和視頻；阿裡的通義大模型，能夠跟人類進行多輪的互動，擁有文案創作能力，能夠續寫小說、編寫郵件等；華為盤古大模型則基于其訓練出的 2000 億參數以中文為核心的預訓練生成語言模型，發布了盤古氣象大模型、盤古礦山大模型、盤古 OCR 等多個行業大模型。

透過上述大模型的功能可以看到，科技大廠的大模型體現的是其背後在算法、算力、深度學習方面的技術實力，而這些技術能力服務的首要對象，自然是 B 端客戶。此前，華為昇騰計算業務總裁張迪煊就曾表示，華為已經幫助孵化了 20 多個基礎大模型，" 中國大模型中約一半由昇騰 AI 支撐 "。而 B 端市場用戶可以在通用大模型的基礎上，定向開發出符合自己需求的專用大模型輔助企業經營，也可以針對 C 端市場開發大模型應用產品。

在王小川選擇大模型創業被質疑機會渺茫這件事情上，大廠在行業賽道搶先卡位，并不代表其已經掌握行業競争的決勝權。過去因為對 B 端市場以及自身業務的過度關注，使得大廠在技術創新方面缺乏一些主動性。比如 2016 年開始就将 AI 作為戰略重心的百度，本就擁有開發 ChatGPT 類語言模型的底層技術，甚至還具備絕無僅有的中文搜索場景，但直到 ChatGPT 爆火之後，百度才在今年 3 月份推出文心一言。

如同王小川對 5000 萬美元啟動資金的判斷一樣，大模型的決勝盤在于訓練階段。在給大模型投喂數據這一關鍵性的成長環節，高素質訓練人才提供的高質量數據集是大模型快速成熟、迭代的關鍵。比如 ChatGPT 早期就利用菲律賓的大學教授進行數據标注，而國内進行數據标注的人才數量和水平均未能滿足行業所需。

因此，國產大模型市場雖然已有 " 百模大戰 " 的态勢，但在最關鍵的訓練環節上，大多數仍在同一起跑線上。王小川之所以有信心參與這一輪行業變革，想必也是看透了大模型不是大力出奇迹的發明創造，而是在底層技術之外，持續投入不斷迭代的產品革新。

關于國内科技公司搶灘大模型的行業現象，知名投資人朱嘯虎和獵豹創始人傅盛曾在朋友圈激烈交鋒。朱嘯虎認為行業泡沫明顯，甚至斷言絕大多數都會在年底死掉。而王小川在 4 月份成立百川智能時表示，" 年底前我們會發布對标 GPT-3.5 的大模型，有信心今年年底做到國内最好。"

王小川的百川智能會是國產大模型的希望嗎？不如把懸念留到年底，到時再看國產大模型又是怎樣一番新局面。