今天小編分享的科技經驗:大模型激戰半年:王小川進擊、王慧文退場,騰訊字節姗姗來遲,歡迎閱讀。
本文來源:時代财經 作者:謝斯臨
圖片來源:Pixabay
國產通用大模型的混戰遠未結束。在半年左右的蟄伏期過後,大部分玩家都浮出了水面。
在這之中,有人加速迭代。8 月 8 日,由搜狗搜索創始人王小川創立的百川智能發布了旗下第三款大模型產品 Baichuan-53B,背後訓練參數高達 530 億。此時距離王小川宣布進軍大模型戰場不過 4 個月的時間,這家創業公司進展神速。
這還只是一個開始,百川智能方面向時代财經透露,後續還會有多款產品發布,包括規模更大、參數超千億的大模型。
也有人黯淡退場。由美團聯合創始人王慧文創立,吸引源碼資本、五源資本等知名 VC 機構,以及美團創始人王興、快手創始人宿華等互聯網大佬投資的光年之外,曾一度被市場認為是國内大模型戰場上最強有力的玩家之一。
然而,随着 6 月下旬王慧文因健康問題離崗退出,無法繼續執掌光年之外,這家備受期待的大模型創業公司只能賣身美團,一眾投資人也随之退股。
還有人另辟蹊徑。AI 大牛周明創立的瀾舟科技,強調輕量化模型,希望用更低的成本解決 B 端場景問題。而曾幫助谷歌将 BERT 模型的訓練時間從 3 天降到 76 分鍾的新加坡國立大學校長青年教授尤洋,則成立了潞晨科技,試圖用低成本訓練大模型的解決方案突圍。
相比之下,大廠自研的大模型則姗姗來遲。直到 8 月初,騰訊自研的混元大模型和字節打造的 AI 對話類產品 Grace 才先後傳出内測消息,具體面世時間仍未可知。
同樣停留在測試階段的,還有李開復創立的 AI 2.0 企業 " 零一萬物 "。在 7 月 3 日舉辦的對外交流會上,李開復透露,該公司在三個月内已實現百億參數規模的模型内測,目前正向 300 億— 700 億參數規模擴大。不過,該產品至今仍未向市場開放。
這些仍未發布的大模型產品将為科技行業帶來什麼樣的改變,值得市場期待。從這個角度來看,這場混戰或許還要持續很久。
進擊的王小川
由王小川創立的百川智能,正以其驚人的產品發布速度吸引市場的關注。
在其 4 月宣布下場做大模型後,僅用了兩個月零五天的時間,就在 6 月 15 日發布 70 億參數開源大模型 Baichuan-7B。不到一個月時間,又發布了 130 億參數開源大模型 Baichuan-13B。
8 月 8 日發布的 Baichuan-53B,已經是這家大模型創業公司半年内發布的第三款產品,百川智能進展神速。
百川智能相關負責人回復時代财經表示,公司在創立之前就已經花了很多時間做前期準備,開始就把路線和方法想得比較清楚。
其指出,做大模型都會考慮三個層面:數據、算法和算力。抛開算力不說,做搜索的公司天然有優秀的數據能力,百川智能的核心團隊此前已經做了 20 年的數據抓取、抽取、清洗、去重、反垃圾等操作,可以更快拿到高質量數據集。
而算法是以自然語言處理為中心,将算法工程進行迭代,不是單一的工程問題,而是在文本數據驅動下,算法和工程共同運行。此前在搜索領網域積累的經驗在這裡也能很好地發揮作用,利用數據評價推動模型進步。
" 有了之前多年的技術和經驗積累,百川智能做大模型產品的速度才會又快又好。"
不過,在發布會上,王小川亦指出,當下國產通用大模型仍處在一個分型復刻的階段。各家廠商基本都在對标 OpenAI,不可避免地會出現同質化的問題。
正因如此,在他看來,與美國閉源大模型的頭部格局已定的情況不同," 中國誰的大模型最好 " 現在并沒有結論。在這場混戰之中,錢是重要的,但最終決定的力量還是人和團隊、組織能力。大廠錢多、人多、算力多,但組織效率通常不一定夠好,創業公司的組織效率可能好,也可能不好。
" 大家都在争取機會,而且不一定落在大廠裡。"
王小川還在采訪中談及退場的王慧文。其指出,王慧文是國内幾個主流做大模型裡唯一一個沒有強勢技術背景的,對他的挑戰比其他家要大。工作中要做大量的技術決策,招什麼人、走什麼技術路線圖、需要多少計算資源,一定會面臨非常多的決策壓力。
" 不是做大模型壓力大,是沒有技術背景做決策壓力會大很多。但是技術足夠的話,其實挺愉悅的。"
騰訊、字節姗姗來遲
大模型混戰開啟之初,互聯網大廠因為坐擁更多算力、人才、資金和數據,被認為是強大的競争對手。
百度自研的文心一言早在今年 3 月底就已率先落地;阿裡打造通義千問緊随其後,在 4 月 11 日舉辦的阿裡雲峰會上揭曉。就在阿裡發布通義千問的前一天,王小川才剛剛宣布下場,成立百川智能。
相比之下,同為一線大廠的騰訊跟字節,推出通用大模型的步調要慢許多。
8 月 3 日,據 36kr 報道,騰訊自研的 " 騰訊混元大模型 " 已經進入應用内測階段。三天後,8 月 6 日,字節旗下的 AI 對話類產品 Grace 也被爆出歷經兩個月的研發後,終于進入測試階段。
此時距離百度發布文心一言已經過去 4 個月。對于騰訊通用大模型產品步調稍慢的原因,馬化騰曾公開表示," 騰訊也一樣在埋頭研發,但是并不急于早早做完,把半成品拿出來展示。"
不過," 并不着急 " 的騰訊,還是在今年 6 月中旬率先公布了 " 行業大模型 " 的路線,一口氣抛出 10 大行業超過 50 個解決方案。無獨有偶,字節跳動也同樣在 6 月發布大模型服務平台 " 火山方舟 ",通過集成多家 AI 科技公司及科研院所的大模型,向企業提供全方位的平台服務。
市場曾一度認為,行業大模型将成為這兩家大廠突圍的方法。
但事實或許并非如此。當下被鼓吹的行業大模型始終存在着被替代的風險。科大訊飛總裁吳曉如曾向時代财經指出,10 年前,在語音識别技術上,也曾誕生過諸多聚焦在通話、行車、辦公等不同場景的專用模型,但随着通用模型技術的成熟,專用模型也随之退場。
" 我認為大模型也會經歷一樣的階段。"
相比之下,從更長遠角度看,通用大模型才真正代表着一個平台級或颠覆性的大機會。正是因此,騰訊和字節都不可能放任自己錯過,哪怕進度緩慢,但它們必定要堅持在場。
有騰訊内部人士向時代财經指出,騰訊的計劃一直是兩條腿走路,通用和行業齊頭并進。只是與一些激進的廠商相比,旗下產品涵蓋社交、遊戲、廣告、内容創作等多個領網域的騰訊,要更為謹慎一些。
學院派創業者另辟蹊徑
在大模型戰場上,來自高校、研究機構的學院派創業公司組成了競争的第三極。
它們既不是王小川、王慧文這樣的種子選手,在創業之初就能憑借人脈吸引到數億美元的投資,并以此迅速起步。也不像騰訊、阿裡、百度這樣的大廠,在算力、人才、資金等各個方面都占據難以逾越的優勢。
但憑借着他們對于人工智能技術的深度理解,這些創業者仍然能在夾擊之下,另辟蹊徑找到新的發展方向。
比如由原微軟亞洲研究院副院長周明創立的瀾舟科技,不同于市面上一眾追逐千億乃至萬億參數的大模型產品,這位從 1980 年就開始研究 NLP(自然語言處理)的華人 AI 大牛希望以更輕量級模型解決 B 端場景的問題。
其推出的孟子大模型曾以十億參數,刷新此前被百億、千億級别參數模型輪番霸榜的中文語言理解權威評測基準 CLUE 榜單。
這是一項務實的決策。出于數據安全考慮,絕大部分企業都不會将數據上傳,而是會要求本地化部署,成本因此被顯著拉高。在接受媒體采訪時,周明指出,哪怕只是本地部署推理,拿訓練好的大模型來用,千億參數大模型也需要 8 到 16 塊 A100,換算下來至少是一兩百萬元的投入," 對很多場景來說,客戶需要便宜和夠用 "。
由新加坡國立大學校長青年教授尤洋創立的潞晨科技,則希望利用算法技術降低大模型的調用成本。
現如今,無論是大廠,還是創業公司,都必須面對國產大模型同質化趨勢愈發明顯的問題。如果這一問題不被解決,未來大模型極有可能陷入當下雲服務廠商面臨的低毛利困境。
尤洋對時代财經表示,這是因為底層技術基座迭代成本過于高昂。他以 GPT 舉例,OpenAI 每一次的訓練成本高達 6000 萬美元,每隔三四個月就需要訓練一次,迭代一次則需要四五次訓練。以此計算,每迭代一次技術基座可能需要 2 億到 3 億美元。
過于高昂的成本導致市場上的技術基座極其稀缺。基本上只有 GPT、LLAMA,還有國内的 GLM。各家廠商基本都是在模仿這幾家大模型做產品,才導致了同質化的問題愈發凸顯。
長期研究高性能計算的尤洋因此成立了潞晨科技。該公司目前推出的開源系統 Colossal-AI 可通過高效多維并行、異構内存等技術,顯著降低 AI 大模型訓練、微調和推理的開發與應用成本。
尤洋認為,只有伴随大模型訓練成本快速下降,或者采取更好的優化技術,使得參數控制在 200 億左右,還依然能夠達到和千億參數一樣的效果時,才會真正迎來大模型百花齊放的那一天。