今天小編分享的科技經驗:清華系學霸,追趕OpenAI,歡迎閱讀。
記者|何己派
編輯|鄢子為
從張鵬辦公室的窗戶向外望,一眼就能看到對面的東升大廈,那是智譜 AI 初創團隊從清華實驗室出來後,最早的辦公地。
智譜 AI 成立于 2019 年,從當初的 30 人左右,擴大到現在的 400 餘人。
滾雪球般增長的,還有它的名氣,以及超高的融資額。
今年公司累計獲得超 25 億元融資,投資機構包括社保基金中關村自主創新專項基金,以及美團、螞蟻、騰訊、阿裡等。
智譜 AI 集結了一幫技術大牛。
CEO 張鵬畢業于清華大學計算機系,董事長劉德兵是中國工程院高文院士弟子,總裁王紹蘭為清華創新領軍博士。
這支學院派出身的團隊最新推出的全自研第三代基座大模型 ChatGLM3 系列產品,多模态能力逼近 GPT-4。
由此,它成為國内唯一對标 OpenAI 全線產品線的大模型創業公司。
" 我們的目标,是盡快追平現有 GPT-4 的能力。" 張鵬向《21CBR》記者表示。
以下是他的自述(經編輯整理)。
脫胎清華
智譜 AI 是從清華走出來的創業公司。
90 年代,清華計算機系成立了知識工程研究室,致力于知識工程理論、方法和應用研究,屬于人工智能領網域的一個分支。
人工智能本身是門實踐性科學,講究理論和工程落地結合。本世紀初,我們開始把數據挖掘、機器學習等相關研究,落地為產品,推出 AMiner 系統,做科研情報挖掘。
之後,實驗室做了一些落地嘗試,直到 2019 年,智譜 AI 成立,團隊走出實驗室,做產業轉化。
我一畢業就留在實驗室工作,公司成立後,連同團隊其他成員一起過來。
整個團隊三十來人,大家共事時間久,有的相處将近 10 年。無論是團隊磨合,還是應用轉化,從學校到公司的過渡,都非常平滑。剛成立半年時,大家感覺跟在學校裡沒有大差别。
大的技術路線,早在公司孵化時,就想清楚了。
大家焦慮的是,"AI 四小龍 " 已經把上一代人工智能技術落地的路徑," 蹚 " 得差不多,下一代突破口在哪?
我們逐漸理清一個方向:要從感知智能,走向認知智能。
自 2016 年起,團隊定下認知智能的發展框架,數據和知識雙輪驅動,從那時到現在,基本在這一框架下探索,只是各階段側重點不同。
2020 年,Open AI 發布參數規模達到 1750 億的 GPT-3 模型。
我們意識到,人工智能的突破,有了新可能,原來暴力 " 堆量 ",堆到一定程度是會出現拐點的。預訓練語言模型的參數量被放大以後,會有 " 智能湧現 ",而不只是能力的線性增長。
GPT-3 的發布節點,恰逢智譜成立一周年。公司内經過幾輪讨論,跟張钹院士等清華老師,也做了很多探讨。
在大框架不變的前提下,預訓練大模型的發展,沿着數據驅動這條路,往前跨了一大步。
我們果斷圍繞這個方向轉,投入到超大規模預訓練模型的研發中。
摸索方向
市面上主流的幾種預訓練框架,BERT、GPT 和 T5,都來自國外公司。
不同的訓練框架,在不同維度上,擅長的能力不同,各自有适合的任務和場景。
把它們各自的優點結合起來,泛化出更多能力,是我們自研 GLM 預訓練架構的出發點。
在許多具有百萬參數甚至更少訓練步驟的基準測試中,GLM 在自然語言理解方面,實現比 BERT 和 T5 更好的性能。這給了我們信心。
基于 GLM 框架,開發百億參數的稠密模型以後,當時 GLM 還沒完全定型,我們用了一些其他模型架構,比如 MoE(Mixture of Experts),用 " 稀疏化 " 方法,成功訓練出了一個萬億參數模型。
這個 " 萬億 " 模型,實際效果沒有想象中那麼好。
GPT-3 的出現,給了我們啟發,要堅定走研發稠密基座模型的路。
2021 年,團隊開始訓練千億參數模型 GLM-130B。國内當時做這塊的少,海外可借鑑的有限,OpenAI 沒有公開技術細節,大家不知道怎麼復現,也不确定門檻有多高。
我們花了大約半年時間做前期籌備,進行調研、設計、實驗和調試,做各種工程實驗。因為準備充分,訓練 GLM-130B,實際只花了兩個月。
同百億參數模型的成本相比,訓練一個千億模型,不是簡單的乘以 10 倍。
最開始融資的時候,我們和投資人聊,需要把大模型的方方面面解釋得非常清楚。ChatGPT 火起來後,算是給所有人上了一課。
去年底,投資圈就敏銳地捕捉到了訊号。過完春節,ChatGPT 掀起讨論熱潮,大家對大模型的态度,跟之前比有 180 度的大掉頭。
熱度最高的時候,我們一天要接待兩三波投資人。
投資人普遍認可智譜的是三點:
切入賽道早,對大模型的認知深刻;所有核心技術,智譜全自研,底層的邏輯靠自己摸索出來;懂國内的 To B 市場,知道用什麼樣的產品去做 B 端的商業化。
團隊裡,工程師、研究員長期一起工作,這讓轉換到產品的過程很快,而後快速上線。
公司成立之初,我們就是帶着技術和客戶入場的,早期做科研情報挖掘等產品,商業化落地做得不錯。
全線對齊
今年無論是團隊擴張、融資規模還是商業化落地,智譜都在提速。
公司的產品矩陣主要劃分為三層。
第一層是包括 ChatGLM 等在内的基礎模型;第二層是工具平台供應鏈,提供标準化組件,可以產品化來提供服務;再往上是應用層,如數字人、科技情報等產品。
迭代頻率上,公司每 3-6 個月更新一代大模型。最新版本是 10 月推出的第三代基座大模型 ChatGLM3。
評測顯示,與 ChatGLM 二代模型相比,在 44 個中英文公開數據集測試中,ChatGLM3 在國内同尺寸模型中排名前列。
ChatGLM3 最大的一個亮點,是智譜的模型能力與 OpenAI 實現了全線對齊,包括基座模型、語言模型、跨模态模型以及代碼解釋器等能力象限。
商業模式方面,To B 和 To C 兩條線都有,更側重 B 端。
C 端產品免費,主要包括生成式 AI 助手 " 智譜清言 ",8 月上線,為首批對外開放的大模型之一。
B 端的付費主要是三種,API 調用、私有化部署以及介于兩者之間的雲端私有化方案,分别對應不同規模企業的需求。
公司重點布局的行業,包括互聯網、金融、教育等。
客戶采用大模型後的效果,得落到具體業務裡驗證,這需要時間,但大家有信心。舉個例子,幫程式員寫代碼的模型產品,平均工作效率至少提升 30%。
關于通用大模型和垂直行業大模型,智譜的思考,一直是加碼基座大模型。
所謂的行業大模型,不是個獨立的事物,跟通用模型不是平行的關系。一個模型,通用能力不夠強,但專業能力很強,這恐怕不太可能。無論哪個行業,專有知識其實都建立在基礎知識之上。
對标 OpenAI,我們期望盡快實現技術追趕,團隊有一個動态調整的時間表。接下來,我們會實現技術 + 商業化落地,兩條腿交替跑步前進。
智譜還做了很多跟生态相關的事情,積極建設開源生态。做大模型,需要舉行業之力。
有一道物理題:一個金屬圓環加熱以後,它的内徑會變大還是變小?答案是變大。内部力量,會推動整體勢能向外走。
我希望大模型的生态圈也能像圓環一樣,一股勁一把火燒起來,大家協力,把生存空間做大。