今天小編分享的科技經驗:智譜AI張鵬:中國大模型基本能力已比肩GPT-4,歡迎閲讀。
作者 | 葉蓁
編輯 | 康曉
出品丨深網 · 騰訊新聞小滿工作室
2023 年下半年,在參加多場國内大模型行業研讨會後,智譜 AI CEO 張鵬強烈意識到:中國創業者不應該給自己貼一個只擅長 "1 到 100" 的标籤,然後限制我們去想 "0 到 1" 的突破可能。
" 能不能把這個标籤徹底扔掉,不要用它來限制自己創新和進步的腳步?"
張鵬的問題,源自中國大模型產品和 ChatGPT 在認知上的差距。
" 用個不太好的詞,得其形未得其神。雖然雙方某些層面也是一致的,比如不約而同的把多模态作為最新模型的關鍵特征,但多模态為什麼重要,大家不是都能説得清楚,這就是差異。"
張鵬和智譜 AI 試圖從本源上來理解 OpenAI 背後的邏輯,來對齊 GPT-4 的水平。
基于此,1 月 16 日,在 2024 智譜 AI 技術開放日 Zhipu DevDay 上,張鵬發布了新一代基座大模型 GLM-4。
據介紹,GLM-4 在基礎能力上實現大幅更新,性能相比上一代全面提升 60%,逼近 GPT-4。其支持更長上下文、更強的多模态,包括更高精度的文生圖性能和更豐富語義的圖片理解。
同時,GLM-4-All Tools 實現自主根據用户意圖,自動理解、規劃復雜指令,自由調用 WebGLM 搜索增強、Code Interpreter 代碼解釋器和多模态生成能力以完成復雜任務。GLMs 個性化智能體定制能力上線,任何用户用簡單的提示詞指令就能創建屬于自己的 GLM 智能體。
毋庸置疑,當下的智譜 AI,正處于浪潮之巅。去年 6 月,在硅谷科技媒體 The Information 的盤點中,智譜 AI 被視為最有可能成為 " 中國 OpenAI" 的 5 家企業之一。
在 2023 年智譜 AI 的全員大會上,張鵬很感慨," 生在這個時代很幸運,一輩子幾十年的時間,可能就趕上這麼一波技術的潮流。"
2019 年成立的智譜 AI 是國内最早研發大模型的企業之一,由清華大學知識工程實驗室(KEG)技術成果轉化而來。智譜 AI 的去年完成了累計 25 億元的融資,投資方包括美團、螞蟻、阿裏、紅杉和高瓴等。
在經歷了追趕 ChatGPT 的一年後,張鵬認為,2024 年中國大模型的主題詞是頂天立地。" 我們希望朝國際上最先進的水平去看齊,在技術上和應用上去嘗試頂一下天;而立地這個事情就是把公司的商業化做好。" 張鵬告訴《深網》。
以下是騰訊新聞《深網》專訪智譜 AI CEO 張鵬實錄整理,在不改變原意的情況下有所删減:
" 與 GPT 4 水平對齊 "
《深網》:最近大半年時間,GPT 和國内大模型產品的發展速度是不是達到預期?
張鵬:GPT 的發展速度還是挺快的,幾個月時間做到 2 億用户。不管是 GPT4, 11 月份發 GPT store,還有最近瘋傳的 GPT5,不管真的假的, 可以看到 OpenAI 也在快速的往前更新和迭代,确實沒有讓大家失望。
國内的發展速度也挺快的。站在國外的角度看國内的大模型,能明顯的感覺到國外對于國内產品的發展速度挺認可。
對比國外一些比較知名的權威人士和團隊寫的文章,從整個時間演化順序來看,出現在文章裏的中國廠商產品是在增加的,國外的同行很關注我們在做的這些事情。
《深網》:智譜 AI 最新的技術突破是什麼?
張鵬:我們帶來了新一代的模型 GLM-4,大腦本身的聰明程度提升了,原來是一個高中生,現在可能到了大學生水平,大腦的水平提升的同時,我們也讓它長出了手腳、眼睛、耳朵,具備了跟現實世界和數字世界進行互動的一些基本能力。
《深網》:目前智譜 AI 的水平,可以對标 GPT 的哪個階段?
張鵬:我們一以貫之的是瞄向 AGI 路徑中的一個階段,每 3-6 個月更新一次做一次更新,每一代都會有一些不同,比如説上一代我們解決的是模型能力矩陣的對标,然後這一次是模型的能力上跟 GPT4 做到基本對齊,GLM-4 的基本能力已經比肩 GPT-4。
《深網》:對标 GPT 4,最重要的是提升你們的多模态理解能力?
張鵬:多模态能力是其中非常重要的一個組成部分。我們聊多模态的時候,首先映入腦海的文生圖、圖生文,這個事情原生的驅動力是要解決跨模态的理解和生成,其本質是什麼?在 AGI 的版圖裏,它代表的是什麼意義?
當時我看到 GPT4 的報告觸動很大,大家都在做文到圖生成的時候,GPT4 做了一個圖到文的理解、推理和生成,它為什麼要做這件事情?
我個人理解,人的視覺、聽覺、觸覺等,都是原始的基礎數據和信息的感知能力,但語言是人造的,用抽象符号來描述這些原始信号的東西。本質上,語言是一種更高階的信号。
人之所以為人,是因為語言,這件事情誕生是一個非常重要的節點。兩個節點,一個是工具創造和使用工具,一個是語言,這是人工智能發展兩個大的标志。
從抽象數據生成具象化内容(文生圖),比從具象信息到抽象信息的轉換(圖到文),要更容易一些。為什麼?因為具象的信号收集更容易,它包含的信息量的密度小;但從低維信号裏面去抽取高維信号是難的,要排除掉噪音,得到價值最大的部分。
本質上,由低級信号到高級信号,更能體現認知的能力。
GPT4 實現了影像的理解和推理,我們認為這是非常重要的一個方向。整個 2023 年,我們在多模态方面花了很大的精力去做圖生文這件事情。而 Gemini 的發布也驗證了這個事情,谷歌也認為這件事情很重要,谷歌甚至走的更遠,它把影像、視頻、聲音、全部統一到一個模型裏去學習。
《深網》:代碼增強能力也是目前大模型之間的競争點?
張鵬:代碼增強是一個比較實際的問題,訓練語言模型的認知能力,類似于再造一個大腦,需要更強的思考能力、理解能力、推理能力和認知能力。
大腦如果不和外界接觸和互動的話,永遠是個缸中大腦,能力再強也幹涉不了現實世界。代碼增強賦予了大模型互動能力,也包括搜索增強能力,讓大模型長出手和腳,眼睛和耳朵,更自主的去獲取信息,更方便的去跟外界的這些系統進行互動。代碼增強讓大模型產生更大的價值。
"2024 關鍵詞:頂天立地 "
《深網》:2024 年,你認為國内大模型的主題和趨勢是什麼?
張鵬:頂天立地。頂天也可以用創新來表示,頂天就是去突破,技術上創新,應用上創新,都是頂天的事兒,往上突破的事兒。
2023 年國内企業在技術上都是一個追趕的态勢,智譜 AI 稍微靠前一點,2024 年我們希望朝國際上最先進的水平去看齊,在技術上也嘗試去頂一下天,GLM-4 就是我們這方面的最新嘗試;還有一個就是應用,兩條思路——原來的釘子砸一遍和找到新的釘子。把原來釘子砸一遍,這個事情大家都能想到,就是用大模型改造現有的工作流程;找到新的釘子,意思就是嘗試一些突破性的創新。
立地這個事,不管技術的突破也好,應用的創新也好,回歸到公司本身還是要把商業上的業務做踏實了,轉化成公司的收入和收益,創造客户價值。
《深網》:國内有投資人認為,OpenAI 的技術本身沒那麼難?
張鵬:這種表述可能不嚴謹,更嚴謹的表述是從技術原理上來説,OpenAI 确實沒有太多神秘的地方,而且有很多原創的技術也不是 OpenAI 發明的,它把這些技術發揚光大或者做到極致。但從技術工程和落地上來看,這就是一件了不起的事情。
ChatGPT 從技術原理、工程化、應用到市場,是一個非常緊密的閉環,很難單獨割裂來看。
《深網》:從技術上看,國内的大模型能趕超 GPT 嗎?
張鵬:現在還是一個追趕的态勢,我們也一直在縮小之間的差距,畢竟後發有後發的優勢,也省去了前面的一些探索,把精力集中在相對正确的路徑上。但説實話,光靠這樣的東西不太可能實現超越的,因為大家的路徑是一樣的,因此最後你可能最多做到和 tGPT 一樣。
這正是智譜選擇自研 GLM 預訓練框架的原因。我們嘗試用局部的或者整個鏈條中的一些創新突破,來提升我們追趕的速度。
OpenAI 起步比較早,發展的速度體現為曲線的斜率,國產大模型起步比它晚,只有用一點一點的積累去調整發展速度,調整曲線的斜率,才有可能預期會越來越近,會有一個交叉的點。
因此,算法、系統工程、數據、應用到落地等等這一個鏈條上,所有的創新累加起來,才有可能去超越它。
《深網》:未來各巨頭都會有自己的大模型,產品會不會趨同,差異化在哪?
張鵬:我們公司在做全局的能力,這些能力對對于 AGI 的整個的目标達成 , 是必不可少的部分,有些會偏向應用去做,有些是偏向行業去做,慢慢的會有一些差異。
" 從 0 到 1" 的标籤
《深網》:OpenAI 前一陣的人事風波對 GPT 的技術演進影響大嗎?
張鵬:目前看起來好像沒有太大的影響。
《深網》:在您看來,國内大模型目前和硅谷的差距主要在什麼維度?
張鵬:差距從各個方面都能列舉一些出來,我覺得本質還是大家對這個事情的認知。以 OpenAI 和谷歌這些世界頂尖級團隊為代表,他們對大模型的認知一定是非常高的。
《深網》:為什麼存在這種差異?
張鵬:去年參加一些論壇和圓桌,大家讨論認為,中國人不太擅長 0 到 1,但很擅長 1 到 100。我在思考為什麼?大家去總結過去的一些事情,以移動互聯網和互聯網舉例,中國都不是技術的起源,但從應用的角度來説,中國的公司跑的都很猛,超過了美國公司。
當然這些過去不足以去貼一個标籤,限制自己去想 0 到 1 的事情,我一直在想,我們應該能夠把這個标籤徹底扔掉,不要用它來限制自己創新和進步的腳步。
《深網》:你認為大模型的本質是什麼?
張鵬:我覺得大模型是我們在探索 AGI 的過程當中,嘗試去理解或者是模拟接近人腦的認知能力的一種技術手段,它是基于人工智能的行為學方法。
《深網》:如何看待 AGI 下半場的競争格局?
張鵬:嚴格來講不叫 AGI 的下半場,應該是生成式 AI 的第二場。後面還有幾場,我不知道。
AGI 也不等同于生成式 AI。大模型可能是我們在追尋 AGI 過程當中一個非常有效的技術手段,但可能并不代表 AGI。AGI 很難,還有很多問題需要去解決。
《深網》:對國内的通用大模型來説,現在是個什麼樣的節點?
張鵬:我想經過 2023 年的充分競争,現在我們逐漸可以説進入一個決戰時刻了。
" 閉源讓企業更容易獲取收益 "
《深網》:開源和閉源,目前來看會導向兩條不同的技術和產業路徑?
張鵬:開源和閉源确實是兩個事情。開源、閉源和商用之間是什麼樣的關系?
在我看來,開源是整個產業大的生态裏必不可少的一環,是技術的多樣性和創新的活力和動力。開源會有一些允許的,會被拿去做商業,但真正大規模的商用最終會落到閉源。商業價值上,尤其對中大型客户而言,選擇并不在于這個技術本身獲得的成本,還包括了技術的穩定性,支持程度,一致性,服務和安全一系列的問題。
從商業應用來講,閉源版本可能會讓企業獲得更好收益,來維持比較好的商業化服務,所以開源和閉源目的不一樣,本質也不一樣。
《深網》:能否分享下智譜商業化落地進展?
張鵬:從整個商業化落地的路徑上來説,我們會有自己的一些選擇,這個選擇是來源于我們團隊的基因,以及我們對當前市場的一個綜合判斷。我們很早就确定我們要做 TO B,我們也罷商業化落地的主要精力放在這塊;TO C 我們也會去做,但我們的目的也比較明确,把閉環做起來,給未來也留下一個可能性, TO C 應用這一塊可能未來也是一個要爆發的點。
TO B 這塊像開放平台,實際上是我們對于 TO B 服務落地的一個具象化的結果。
《深網》:人工智能此前沒有爆發,是不是缺一款劃時代的產品?
張鵬:人工智能的爆發不是一個產品能決定的事情。就像上一代 AI 的技術,能夠説它不夠爆發嗎?每天刷臉,支付,語音都已經到這種程度了,算不算爆發,但大家為什麼認為那個不算爆發?可能潛意識裏覺得它不是我們想象中的人工智能,而更像是工具。
《深網》:國產手機也在開發端側大模型,英特爾和聯想等開始發力 AIPC,這些硬體領網域的 AI 革命會不會帶來相關產業的重塑?
張鵬:我覺得大概率會,大家希望在手機上用到新東西,需求是存在的。第一怎麼把這個技術的路徑走通;第二把成本降下來;第三個把使用的體感提升上去,某種程度上講,這三件事是同步要進行的。