今天小編分享的互聯網經驗:第四範式戴文淵:深耕行業大模型十年,這是中國AI市場的風口,歡迎閲讀。
第四範式創始人兼 CEO 戴文淵
訪談|周鑫雨 蘇建勳
文|周鑫雨
編輯|蘇建勳
封面來源|企業供圖
湧現(Emergence),是生成式 AI 浪潮的一個關鍵現象:當模型規模擴大至臨界點,AI 會展現出人類一般的智慧,能理解、學習甚至創造。
「湧現」也發生在現實世界——硅基文明一觸即發,AI 領網域的創業者、創造者,正在用他們的智慧與頭腦,點亮實現 AGI 的漫漫征途。
在新舊生產力交替之際,《智能湧現》推出新欄目「湧現 36 人」,我們将通過與業界關鍵人物的對話,記錄這一階段的新思考。
一整年來," 第四範式 " 創始人兼 CEO 戴文淵朝客户潑了不少冷水。
" 你先忘記 AI,忘記大模型,先想清楚你要的是什麼。"
這些 " 靈魂拷問 " 的背後,是戴文淵作為一個人工智能行業老兵,對 " 技術跟風熱 " 的本能思考與反問。
在投身 AI 創業前,戴文淵曾就職于華為諾亞方舟實驗室,也負責過 " 百度鳳巢 "(百度的搜索營銷系統)的研發。他覺得技術需要服務于解決核心問題," 不是因為有了機器學習的技術,你才硬套上技術去解決公司的問題 "。
但技術浪潮的起落,本就如亂花迷人眼。2014 年,第四範式成立。至今十年來,戴文淵經歷了大數據、CV(計算機視覺)等風口。當進度條拉到大語言模型石破天驚的 2023 年,他發現同樣的問題在風口中重復上演:從業者只想追逐技術熱潮,卻忘記了業務核心問題。
ChatGPT 的智能湧現,讓全行業為之沸騰。但在戴文淵看來,ChatGPT 帶來的大語言模型浪潮,對不少行業而言是個美麗的泡沫," 大語言模型解決的是説話問題,但大部分行業的核心問題,都不是説話 "。
他為 36 氪舉了不少例子:零售行業核心問題是怎麼做好供應鏈,醫療行業核心問題是怎麼診斷和預防,金融行業的核心問題是如何風控——這些核心問題對應的數據模态,分别是監測數據、體檢報告、欺詐數據,都不是語言。
" 在一個大語言模型基座上嫁接其他模态的數據,是非常困難的。" 戴文淵直言," 現在市場上 99% 的行業大模型,其實都是行業大語言模型,沒法解決核心問題。"
真正的行業大模型到底是什麼?
基于不同模态的場景數據,訓練出的" 場景大模型 "——這是戴文淵給出的答案。
GPT 本質上是讓 AI 能夠預測下一個 token。戴文淵覺得,大語言模型的出現,限制了大家對 Transformer 的想象——既然大模型能預測下一個文本,為何不能預測模态各異的 "X"?
若将 "Predict the next X" 的思想,運用到解決行業問題,"X" 就代表了不同模态的行業核心數據。3 月 29 日,第四範式發布了行業大模型平台 " 先知 AIOS 5.0"。行業客户只要在平台上傳不同模态的核心數據,就可以低門檻訓練出解決核心問題的場景大模型。10 年來,這是第四範式先知 AI 平台的第五次迭代,而這部分業務,在第四範式的營收占比中,已接近 60%。
只是在市場信仰派和技術信仰派争論不休的當下,行業大模型的故事看上去不夠性感。在市場信仰派眼中,行業大模型總有一天會被足夠強大的通用大模型颠覆,不是長遠生意;在技術信仰派眼中,行業大模型解決的是單點問題,與 AGI 的信仰相去甚遠。
戴文淵卻認為,行業大模型,就是一條基于自身優勢、通往 AGI 的 " 縱向道路 "。行業多、數據多,是中國大模型行業的優勢。在戴文淵看來,理論上将成千上萬個場景大模型相融合,每一個 Vertical(垂直領網域)都做到極致,覆蓋面越來越廣,沒覆蓋的地方越來越少," 你感知不到我還有不知道的地方,就能無限接近 AGI"。
通往 AGI 的路線需要因地制宜,在戴文淵看來,大模型的商業模式也不能照搬 OpenAI。他告訴 36 氪,OpenAI 是一個大模型公司,商業模式借鑑的是 Adobe 等工具型企業,放置中國,是個很小的市場。相對地,第四範式是個行業大模型平台,商業形态借鑑了 Salesforce 或 Palantir," 對應的是 To B 科技市場,市場規模會大很多 "。
不過,AGI 的話題終歸遙遠,戴文淵眼中的頭頂大事,是用行業大模型為客户提效。
" 實際上我覺得各行各業需求,并不復雜。我們要解決的,是從客户利益出發,與客户一起清醒判斷清楚自己要什麼,再回過頭去琢磨技術。" 他總結。
以下為智能湧現與戴文淵的對話,經整理編輯:
真正的行業大模型,叫做場景大模型
智能湧現:多年以前我們和第四範式接觸的時候,你就提到 "AI Everywhere" 的概念。這兩年随着 AI 技術的演進,你覺得現在第四範式做的大模型和更早時候有什麼不同?
戴文淵:我們并不是從今天才開始做行業大模型,其實從十年前創業第一天開始做的就是行業大模型。在 " 先知 1.0"(第四範式在 2014 年 12 月發布的 AI 平台)推出的時候,做的是高維實時自學習,本質上就是行業大模型," 高維 " 就意味着參數要大。
只不過那個年代,在維度還不夠高的情況下,行業模型的生成能力有所欠缺。我們只能在盈利能力特别好的場景上把規模做大。如果盈利能力不是那麼好的場景,用現在參數規模的模型去解決問題,最後經濟賬算不回來。
現在随着算力和分布式模型訓練算法的成熟,做十億級以上維度的大模型的門檻或成本,逐漸降低到了行業能接受的程度。因此我們現在的行業模型,已經到了可以用生成式 AI 去解決行業問題的階段。
智能湧現:" 先知 AIOS 5.0" 平台定位是怎樣的?
戴文淵:" 先知 " 的定位就是行業大模型。我們對行業大模型的認知,可能和現在市面上所謂的 " 行業大模型 " 不一樣。
現在我們看到的市面上 99% 的 " 行業大模型 ",在我看來不是真正的行業大模型,而是叫行業大語言模型。比方説金融機構的金融術語大模型,它可能比普通的大模型更能聽懂金融機構業務人員説的話。
智能湧現:為什麼行業語言大模型不是真正的行業大模型?
戴文淵:我們發現絕大多數的行業,語言模型并沒有在解決核心問題。不能説行業語言模型完全沒有用,但是比如説金融行業的核心問題是控制風險,而不是和客户聊天。再比如零售行業的核心是要做好供應鏈和銷售,醫療行業的核心是去診斷,給出治療方案,都不是和客户聊天。
智能湧現:不少友商是根據幾個主流行業,比如醫療、金融、制造業等等,來推出行業大模型。你怎麼看待這樣的劃分方式?
戴文淵:如果這個劃分方式是工業一個大模型,金融一個大模型,在我看來太粗了。這麼劃分一定不可能做出一個真正解決業務核心問題的大模型,哪怕是金融行業,銀行、保險、證券都是不一樣的。
那為什麼現在會有金融大模型?實際上它不是金融大模型,只是嫁接過一些金融術語的大語言模型。假設你丢一個交易,問這個模型是不是欺詐交易,或者問大模型能不能貸款,得到的答案基本上都是胡扯的。
這就是為什麼我覺得這些行業大模型沒有解決核心問題的原因,因為每個行業的核心業務,絕大多數都不是説話。
智能湧現:那應該怎樣劃分行業模型?
戴文淵:在我看來,所謂的行業大模型不是一個行業一個模型,而是一個場景一個模型。所謂的行業大模型下面會抽成很多不同的場景,或者可以説行業大模型是場景模型的一個集合。比如體檢報告預測并不代表醫療,而是代表醫療的一個場景,或者説是慢病管理的場景。
這些場景也可能是特殊的模态,比方説醫療場景可能是體檢報告,金融可能是信用報告。基于這些特殊的模态,我們要去構建生成式 AI 模型。
智能湧現:你提到語言模型的技術架構是預測下一個字元,行業模型則是預測下一個 "X",這個 "X" 指的就是不同場景的模态嗎?
戴文淵:是的。我們解決一個問題,它有确定的模态,有一批數據,之後就是去訓練一個基座。行業大模型要解決行業問題,同樣也要訓練行業基座大模型,只不過模态不是語言。就像預測下一個體檢報告,數據的模态是體檢報告。至于上面需不需要嫁接其他模态數據另説,解決問題首先是需要一個行業基座大模型。
智能湧現:第四範式和下遊企業的開發者在 AIOS 5.0 上分别承擔怎樣的角色?
戴文淵:第四範式承擔的主要是平台的開發。或者咱們説個最極端的例子,假設 OpenAI 能夠把它所有的語料傳到 AIOS 5.0,第四範式平台下面也有足夠多的 GPU,我們的平台就能開發出一個 GPT。
要培養會訓練行業大模型的 AI
智能湧現:行業的場景有成千上萬個,每個場景一個基座模型,第四範式做的過來嗎?
戴文淵:各行各業的行業大模型都不可能由第四範式一家來解決。我們不是選擇發布幾千、幾萬個模型,而是發布一個行業大模型的開發和管理平台,這也是先知 AIOS 5.0 的核心價值。
當企業需要開發一個行業大模型的時候,可以把特定模态的數據上傳到上面,低門檻開發出一個行業大模型。我們去解決各行各業場景的問題,實際上是要把模型開發的門檻降低。
我相信未來第四範式開發出來的模型只是裏面的千分之一、萬分之一,甚至更少。絕大多數的模型,由行業人員開發出來。
智能湧現:相較于大語言模型,訓練不同模态的行業大模型會有哪些難點?
戴文淵:最難的反而不是技術。行業大模型的訓練也主要基于 Transformer 架構。Transformer 的出現讓生成式 AI 構建的成本降低了,也就是預測下一個字或者其他模态的 "X" 的成本降低了。我們現在能用過去同樣的成本,做出更大的模型。
行業大模型構建的難點在于,當場景越來越多,你就無法在每個場景都用最優秀的科學家去做。這一行科學家人數太少。
智能湧現:這是不是也牽扯到 AI 公司如今的人才密度問題?
戴文淵:我覺得這個不是人才密度的問題。如果你面對的不是做一個模型,而是做一百萬個、一千萬個模型,沒有哪個 AI 公司能有那麼多人才,地球上都沒有那麼多的人才。
智能湧現:那第四範式的解法是什麼?這個算是做行業大模型的護城河麼?
戴文淵:要實現這條路徑,有一個必不可少的技術叫做 AutoML ——自動機器學習。能夠用不是那麼頂尖的科學家,甚至非科學家的工程師、數據分析師,去把這麼大體量的模型訓練出來。AutoML 不説每個模型都能做到世界上最頂尖的水平,但普遍可以做到排名 Top 5% 的水平。
為什麼我們在 AutoML 上會有優勢?是因為我們做過的場景太多了。AutoML 是一個失敗的藝術,不是成功的藝術,并不是説我有一個别人都不知道的靈丹妙藥或者算法。
每天我們都有幾百上千個場景在訓練,不僅訓練成功了很多大模型,也訓練失敗了很多大模型。這些失敗都是 AutoML 調整、優化的寶貴财富。日積月累,積累了将近十年,這是我們最不可被超越的。
智能湧現:先發優勢和積累還是很重要。
戴文淵:對。比如説谷歌的搜索引擎,早期可能是一個算法,後來大家就是用谷歌用得多,它出的結果哪裏不好它自己知道,知道以後自己修改。你不怎麼用别人的搜索引擎,别人就很難去超越谷歌。
落地的第一關,是幫客户想清楚自己要什麼
智能湧現:在場景模型的落地過程中,您覺得困境是什麼?
戴文淵:在我看來,最大的困境是認知的問題。其實絕大多數的行業知道自己的核心問題是什麼,但是當一個新的技術出現的時候,他們往往在讨論新的技術的時候,就忘記了行業的核心問題是什麼了。
比如説零售行業要解決供應鏈問題,但當大數據出現後,他們就變成收集數據了,忘了自己其實要解決供應鏈問題。同樣,當 CV(計算視覺技術)出現後,他們就變成我要研究人工智能、研究人臉識别問題;當大語言模型出現後,又開始研究怎麼説話。
排第二的問題實際上叫做彌合兩邊差距。企業也知道自己要解決什麼問題,但技術的語言和業務的語言之間是有差距的,彌合這個差距也要花不少時間。
智能湧現:這些困境現在仍然存在嗎?
戴文淵:這兩個問題,我覺得過去一年基本解決了。你看去年這個時候,各行各業都在上線大語言模型。這麼幹了半年以後,很多客户突然發現我不是説話的,是賣東西的、批貸款的、做設備管理的。現在基本上大家的認知已經過來了,後面緊接着就是扎扎實實地把這個問題解決了。
剛才講到的數據、算力、成本方面的問題,是實實在在落地時要解決的問題,我覺得不算什麼大問題。包括數據,過去如果你整理得不太好,那今天開始就把數據規範好,很快可能就有數據了。咱們也不是説明天就一定要把所有的行業大模型都做出來。
算力的成本,各方面我們都要做判斷,如果場景模型創造的價值足夠大,是天量的價值我們可能搞到千億參數,海量的價值可能搞到百億參數,中等規模的搞十億參數,總能找到一個适合你的規模和成本。
智能湧現:企業想要在 AIOS 5.0 上生成一個場景大模型,需要多少數據?
戴文淵:我只能説訓練數據和參數量是成比例的增加,你需要一個量級的參數,不一定需要同一個量級的訓練數據,如果參數量只有 1K,訓練數據少一個數量級也可以。
智能湧現:場景問題必須要用大模型來解決嗎?
戴文淵:其實并不是説所有的事一定是必須。如果你能接受它沒那麼好,參數量也可以不那麼大。
但是如果説在行業裏面,咱們就是要追求極致的業務效果,參數量就應該變大。對于營銷場景,當參數量變大了,它營銷得能夠更精準,在能更精準地知道你明天要買什麼樣的東西的情況下,我的收益就很大了。為了這個我就應該把大模型做大。
智能湧現:下遊企業用得起場景大模型嗎?
戴文淵:這取決于要把參數量做到多大。現在訓練到百億以上參數的成本還是吃不消的,如果是十億級參數,對絕大多數我們所看到的客户而言,還是一個可以接受的範圍。
智能湧現:成本主要來源于算力?
戴文淵:是。當參數量增加一個數量級,其實成本增加的比一個數量級更多。對于普通的場景,十億參數規模還是在可以接受的範圍。
智能湧現:今年場景大模型會給第四範式帶來比較好的商業回報嗎?
戴文淵:我覺得今年大家會思考一些更腳踏實地的問題。整個市場營收的增長,今年肯定會看到。
通往 AGI,我們也有縱向優勢
智能湧現:從旁觀者的視角來看,做小場景的模型往往是市場導向型的。你有通往 AGI 的理想嗎?
戴文淵:我覺得 AGI 就是無窮大,做 AI 的人可能永遠都到不了,但你要永遠逼近它。從科學的角度,我認為我永遠到不了 AGI,但對于個體感知而言,只要 AI 的能力能覆蓋你所能問出的所有問題,在你的視角裏就是 AGI,這可能不需要多久。
智能湧現:怎麼逼近 AGI?
戴文淵:實話説我們在很長時間裏思考過通往 AGI 的兩條路。
我們國内有大量場景和數據優勢,從一兩個,到一萬個、十萬個、百萬個,當我們覆蓋場景足夠多,把這些模型拼起來,最後你可能也實現了 AGI。這是縱向的路線,也是我們會在相應領網域,比 OpenAI 更有優勢的地方。
另外一條是橫向的路,用 OpenAI 的方式去打敗 OpenAI,對于絕大多數公司,至少此時此刻機會不是很大。因為他有你一個數量級以上的資源,如果你走它的路,打敗它是不切實際的。
縱向方式是每一個 Vertical(垂直領網域)都做到極致,覆蓋面越來越廣,沒覆蓋的地方越來越少,你感知不到我還有不知道的地方。橫向路線就是我的能力越來越強,高于絕大多數人的能力。兩邊都在無限逼近 AGI。
智能湧現:現在能證明縱向的路可以走通嗎?
戴文淵:我認為縱向這條路一定是能走通的。就好比我們發布的幾個場景,我們一個個的 Vertical 做得能比 OpenAI 更好,後面要努力的方向就是讓我們的覆蓋面越來越廣。
但通過橫向的方式做到這幾個能力,需要的資源可能是巨量的。
智能湧現:橫向和縱向,哪條路更難走?
戴文淵:大家難的地方不完全一樣。橫向的往上再堆,其實是資源的指數級增加。我們要解決的其實是有效數據量指數級增長時,算力和數據獲取的成本怎麼能夠不指數級增長。
縱向對應的是我們需要去一個個突破場景,可能每個場景不一定要做到萬億參數,絕大多數場景在十億、百億參數量,少部分在千億這個量級。将來随着算力成本的降低,可能絕大多數場景都能做到千億參數。我們需要突破的是場景之間的壁壘,最後把這些場景聯合起來。
國内大模型,商業模式不能完全復制 OpenAI
智能湧現:目前行業大模型,或者更準确説是場景大模型,到了給模型廠商們帶來大規模營收,甚至盈利的時間點嗎?
戴文淵:如果你這個模型沒有創造什麼核心價值,哪怕現在盈利了,也不是持久的。
所以,行業大模型需要越來越多地切入到行業的核心問題。只有你創造的是核心價值,行業才會願意為這個模型去付費更多,你才能帶來更多的收入和利潤。這是其一。
其二,從商業模式角度來説,不同市場特點的商業模式還不太一樣,所以,在中國市場找到更适合的商業模式,是大模型公司在下一個階段需要重點考慮的問題。
智能湧現:怎樣的商業模式比較适合當下的中國市場?
戴文淵:我們的商業模式實際上是一個 To B 類的科技商業模式,用行業大模型平台,服務千行百業。
這是個巨大市場。其實國内頭部的行業整體科技預算,都是在千億(元)規模,比如金融、能源、醫療等。
我剛才想表達的是中國最後的大模型形态,有可能跟海外不太一樣。因為我們有自己的市場特點。
比如OpenAI 對應的是工具類市場,工具類市場對應的是 Photoshop 這類市場,是結合當地的市場特點。所以我覺得中國的大模型公司,未來商業形态也要結合本土的市場優勢和市場增長容量。
智能湧現:所以其實是落地場景的商業模式給大模型企業提供了商業機會。
戴文淵:落地到怎樣的場景就是我們思考的問題。我們可能提供大模型技術,但最後的商業形态借鑑的是 Salesforce,或者 Palantir。OpenAI 是一個大模型公司,商業模式借鑑的是 Adobe,這是有區别的。
掃碼加入「智湧 AI 交流群」
歡迎交流