今天小編分享的科技經驗:獨家對話騰訊混元劉煜宏:做大模型可以有「深圳速度」,但不能跳步,歡迎閱讀。
加速,狂奔,硝煙四起,是過去一年大模型創業浪潮展現出的一番景象。有資源、有能力的騰訊,卻顯得「過于冷靜」了。
2024 年 5 月 30 日,騰訊推出基于混元大模型的 App ——元寶,它的產品設計很簡潔,打開的第一屏,是一個搜索框,核心是先瞄準生產力場景,重塑信息的組織、交付。
這樣的產品理念從何而來?一個打底層技術出身的團隊,做大模型是首先是為了改造内部業務的工作流和產品。所以對于做什麼,不做什麼,騰訊混元大模型團隊有清晰的認知。生產率工具容錯率低,更考驗技術能力,進一步迭代模型能力。
對外鮮有高調發聲,「水下」内部卻将大模型擺在戰略位置。推出元寶 App 之前,騰訊混元大模型作為技術底座的角色,已經支持了騰訊内部接近 700 個「客戶」,并沉澱出一套平台工具和合作模式。這讓騰訊對後來将模型算法、數據、工程能力等技術能力「外化」有了信心,一切也順其自然。
騰訊元寶發布之後,騰訊混元大模型負責人劉煜宏收到一些反饋,讓他感到驚喜,「一些好的公眾号内容已經被『遺忘』,但元寶挖掘出來,重新做了信息組織」。「沒有上帝視角」,用戶需求越滾越大是產品最好的驗證。
「一年後國内的模型能力将拉齊」的預判在今天被驗證,再次證明了圖快走捷徑做大模型沒有意義。對于 OpenAI 的示範效應,劉煜宏說,即便後來者看到一條确定性高的路徑,也得走一遍。試過,才能跑得越來越快,縮短每一次追趕的時間。被問到之後的計劃,劉煜宏說,多模态甚至全模态的理解和生成都是「必答題」,當下也會讓模型在「多一些思考」、增強推理能力上下功夫。
大模型注定是一場長跑,「AGI 目前更像信仰」,但将騰訊混元大模型能力在内部 700 個業務上用得好,是劉煜宏認為對于 AGI 的務實追求。有遠見但務實,也是混元團隊在大模型上的世界觀對齊。
在近兩個小時的直播裡,關于騰訊的大模型思考,混元的做與不做,元寶将與騰訊生态如何產生聯動等話題,劉煜宏為我們做了坦誠的梳理和解答。
以下是這次直播對話的實錄,經極客公園整理後發布:
01 做大模型可以有「深圳速度」,但不能跳步
張鵬:去年 9 月騰訊混元大模型正式對外亮相,前段時間也發布了元寶這樣一個比較 AI Native 的產品。但外界總體感覺,騰訊比較沉穩,沒有瘋狂搶先手、也沒有一下放出很多產品,情緒一直比較穩定?
沉穩的背後,騰訊在大模型上是怎樣的策略?
劉煜宏:其實是「外松内緊」。外界看到不着急,感知混元推出來比較晚,但坦白來講,這是一個非常卷的賽道,我們内部的節奏是非常緊張的。
騰訊從戰略上一直将大模型和生成式人工智能,視為百年不遇的、類似工業革命一樣的機遇。
對外產品上,去年 9 月推出了「騰訊混元助手」小程式,今年 5 月 30 日推出了元寶 App,(也推出智能體開發平台——元器),但這些背後的底層能力其實我們做了很久,像廣告大模型在 21 年就開始做了。元寶 App 發布一個月不到的時間裡,更新了五六版,每一個小的迭代都解決了一部分問題。
去年我們沒怎麼對外發布產品,其實是内部率先用起來(大模型),比如騰訊會議、文檔,微信讀書的 AI 助手,包括它們在内很多内部產品已經在用了,除了 API 的方式接入,還有一些業務會做精調。到目前為止,騰訊内部有接近 700 個業務接入混元,基本上騰訊所有的(業務)都用。
騰訊内部近 700 個業務接入混元大模型|圖片來源:騰訊
張鵬:OpenAI 一聲炮響讓大家看到這個新的趨勢,去年騰訊内部對于大模型是如何判定的?當時做決策的真實情況是什麼樣的?
劉煜宏:GPT-3.5 出來前後開始做混元這個項目。一些底層相關技術做得更早,剛才提到廣告大模型在 21 年就開始做了,搜索相關的「推廣搜」場景也做了很久,運行大模型的底座從一幾年開始就在建設。
對外的產品節奏看起來體感很慢,因為一開始便深知這是一個長期的項目。原來還說百年一遇,現在發現是幾百年一遇的項目。不是短期一窩蜂就能搞定,像做原子彈,只有一步一步積累,把底子打牢。
舉個例子,打底層涉及到網絡問題,沒有網絡、算力,怎麼訓練?錢能跟上嗎?預算怎麼投怎麼收?等等,都得考慮。我們比較清醒,對底層困難預估得足。
一年半前我們判斷,一年後國内的幾家大廠在大模型能力都差不多。目前也認證了這個預判。我們雖然壓力大但有比較多的試驗機會。
張鵬:在大模型上,業界大家都比較着急,也有創業者認為這個時候快速跟上是第一目标,甚至可以基于開源模型做 post-train,因為開源模型「看」過的那些數據,沒必要重新再「看」一遍。
劉煜宏:我們從來沒想過這條路,一開始就決定冷啟動,從 0 到 1 完全自研,是一條非常艱難的路。
騰訊做產品有個原則,得自己驗證一遍,連顏色、像素、排布的選擇都是試驗出來的,頁面設計成瀑布流留存率就有多高?對男性用戶如何?等等這些都是 ABtest 出來的。
OpenAI 過去幾年走過的路,模型從 1.0 版本到 4.0 版本他是怎麼走的?就算過程中你按他披露出來的一些技術路線走,該做的實驗一定不能少。比如也有很多超參數、數據配比要調,甚至中英文數據比例怎樣才是效果最好都要做大量實驗,花了很多時間在這裡。
張鵬:打個比方說,下決心要給新時代生個孩子,不是說趕緊抱一個過來,是要生一個親生的感覺。
劉煜宏:對,我們從一開始就堅定了全自研路線,追求自研、可控度、安全。從 0 到 1 自主探索,包括訓練、推理的框架平台,模型預訓練、精調、強化、怎麼對齊,數據,投入了大量資源。
坦白來講,大家都在看 OpenAI 的路線,但不是你按 GPT-4.0 的套路走,就能行得通。
張鵬:要從 0 到 1 走一遍、但要更快速地走一遍,而不是找個捷徑只為了追上某個點。那麼設定的這個起點是哪?
劉煜宏:如果說大模型,可能從 Transformer 甚至更早。
我們會設定一些目标,比如一開始對标 GPT-3.5,預計什麼節點能達到 3.5 的什麼水平,什麼時候能在工程上追上。坦誠講,目前很多能力提升還真的是靠數據和工程。
目标是有的,但不能跳步。不能看到 GPT-4o 出來了,發現多模态融合做得好,就不考慮 GPT-3.5 了。我們評測 GPT-4o 确實比 GPT-4V、GPT-4 Turbo 那些版本的能力都強。但直接按 GPT-4o 路線走,估計大概率會失敗。
目前來看大模型怎麼選擇路線,還是一個實驗科學,你得堆資源,人力,數據訓練,當看到就這麼一條路,那麼選它有很大概率會成功,把他們探索的加速走一遍,而不是直接到終點等着說就按這個路線走。
張鵬:大模型技術變化非常快,一邊挖地基、一邊蓋樓的感覺,這樓現在一下都蓋到比方說 5、6 層了,統一多模态什麼的全出來了。壓力會不會更大?還是說,打地基和不斷蓋樓的過程中,更有信心了?
劉煜宏:跑了一遍,當然更有信心。你看到蓋到 5、6 樓,不代表前面 1、2、3、4 ……樓就不需要,只不過你可以蓋得更快,深圳速度一天一層樓類似這樣,所以一定是要把從零到一的過程重新走一遍。
張鵬:你們的做法還是很嚴謹的。煜宏你在騰訊多少年了?
劉煜宏:我 05 年加入的。
張鵬:20 年了,那你一定對騰訊的風格非常了解。去年很多大廠積極地搶身位,騰訊好似不争不搶,但在内部挺較勁的。這個是騰訊骨子裡帶的做事風格?
劉煜宏:我在騰訊一直做技術。坦白講,做技術、產品是可以借鑑的,但也有個詞叫「空中樓閣」,沒有地基你就上不去。這可能也是騰訊的風格。
别人用三年從版本 1.0 迭代到 5.0,你用半年走一遍,如果說產品和技術有參考,那麼最大的參考意義在這過程中。走一遍你會遇到同樣的東西,這時候會理解,「哦,為什麼是這樣」,走一遍後也才知道,也許因為用戶群、生态等不同,另外一條路可能是更好的選擇。
02 從需求中長出來的元寶 App
張鵬:你剛講很多騰訊内部的產品在用混元大模型了,能不能舉幾個混元給原有產品帶來新的 Feature(功能 / 特性)的例子?
劉煜宏:最新的例子,微信讀書裡的 AI 讀書;微信輸入法 AI 幫助擴寫;騰訊會議裡的 AI 助手,能給晚加入會議的觀眾總結之前别人講了什麼,把一次很長會議的會議紀要給摘出來。還有騰訊文檔裡的續寫;企業微信裡的翻譯幫助與海外同事交流。現在騰訊旗下的協作 SaaS 全都接入了騰訊混元大模型。
再早一點的例子,智能客服在内部最為普遍。其實在用大模型之前,智能客服就做得挺成熟的,但大模型還能再提升 20%,這種程度的效率提升。
其實做了(大模型)產品之後,也幫助了自己很多,比如用 code copilot 寫代碼(涵蓋前後端開發,C,C++,Java,Go,Python 多開發語言)的采納率有 30%,相當于 100 行代碼有 30 行是 AI 寫的,而且被采納。設計師設計 logo 時也用 AI 文生圖來幫忙,每天千萬級收入的廣告業務的一些素材,就 是用 AI 助手來做的。大模型對于降本增效起到很大助力。
張鵬:你剛提到,騰訊内部接近 700 多個產品在用混元大模型,算是混元的「内部客戶」已經有 700 家了,那你怎麼服務得過來?同時還得兼顧不斷前進的技術。
劉煜宏:内部調用量大概将近 3 億次了。去年我們發布(節奏)慢,一部分原因也是我們投了很多資源先服務好内部的「客戶」。騰訊做事情,對外開放前一定要先在内部打磨好,自己的狗糧自己先消化。
同時,騰訊确實有最齊全的業務場景,辦公協作、遊戲、社交、推廣搜等等。在這些豐富的場景中,也能練兵,也能練模型。精調、以及其他給產品的反饋,反過來又反哺到主模型裡。比如,會議總結、function call 等。
對于内部產品接入混元,我們提供三種模型來支持。
第一種叫全托管,給沒有那麼強研發資源的團隊,他們提業務需求後,我們想辦法把模型精調好,他拿走直接用;
第二種叫半托管,有些業務有自己的研發,也能做算法優化,我們一起共建,一人一半,他們搞不定我們再上。最近兩年「開源協同」在騰訊内部很流行。
還有一種,我們把模型開放後就不管了,剩下的業務如果有需要,自己加數據、自己調。
我們去年也是花了大半年,慢慢把幾個模式跑通。我們提供一站式精調服務,叫「混元一站式」,允許他們做各種創作、優化,内部根據需求調用資源,模型、算法、插件。
張鵬:三種模式占比如何?
劉煜宏:7 成左右拉 API 就可以了,啥都不用管。另外 3 成多少要精調,這其中拿走模型完全自己精調的會比較少,因為有門檻,我們一起參與的進展會更快。
張鵬:70% 的業務直接調用混元 API,30% 要精調,哪些產品、業務要重點支持?這個選擇權到底在誰,或者看業務部門誰更有影響力嗎?
劉煜宏:這時候我們會基于兩點考慮,一是復雜度,投入多少資源能幫你解決問題;二是同等難度和投入的情況下,先考慮戰略重點。
資源配置上,其實主要看客觀需求。目前 70% 是 API 模式就能搞定,用的是大模型的通用能力。那就看什麼場景用大模型的通用能力就可以解決,比如像娛樂場景這樣容錯度高的場景,沒有強解決問題的能力也行。但要做金融、醫療、法律等嚴肅場景,不能有幻覺,通用 API 不一定搞得定,要專門精調,為嚴肅場景做大量優化。
所以,第一是看用戶選擇。第二,這個數據在不同階段也會變。最開始我們支持騰訊會議、騰訊文檔時,擴寫、潤色、總結能力都是需要定制的。一旦做好了,這個能力就能變成通用 API 能力,開放出來給以後接入的業務用,這時候就不再需要定制了。比如給騰訊會議做好了,騰訊文檔、騰訊郵箱也有類似的需求。
張鵬:把模型做好,這幾種模式跑順,服務好 700 家「内部客戶」,是挺花時間的,所以你們去年不着急對外說,是在忙着解決服務内部的問題。
劉煜宏:最開始做混元,沒想要做 ToC 產品,是要把基礎模型打磨好,服務内部需求,這是我們原來的邏輯。
當我們在内部很多產品、不同場景裡驗證後,發現這個能力可以拿出來給大家用,所以去年 9 月份推出了「騰訊混元助手」小程式,因為覺得在微信生态裡也可以用。但後來發現這樣做也有不足,比如使用時被聊天打斷,沒法持續地對話,它就沒法成為一個好用的 AI 工具。于是推出了 App。
整個過程裡,我們不斷地思考、調整方向。從做一個底層模型、一個基礎功能、平台服務内部業務,到後來發現,如果不探索原生 AI 大模型應用,不知道怎麼跟業務更好合作,所以又前進了一步,從小程式,到 Web 產品,App 產品。
張鵬:市面上也有很多比較熱的大模型產品,主打陪伴類等等,你們「元寶」做得比較簡單,界面就一個框,當時是怎麼思考的?
元寶 App 第一屏界面|圖片來源:騰訊
劉煜宏:選擇現在這樣的界面,還是想回歸「用戶到底需要一個什麼樣的 AI 產品」?
現在大模型的使用人群,學歷較高、職場人士占多,所以偏工作和學習的場景更重要,娛樂屬性也有,但重要性相對低。相應地,我們的 slogan 也調整成,「輕松工作,多點生活」。不是不做娛樂,也留了一些智能體在上面。我們也有開放的平台——元器,上面能做很多智能體,角色扮演、陪伴等等。
先選擇把生產力場景的用戶痛點用 AI 搞定,信息搜索、寫文檔、想創意、知識獲取、閱讀等需求。比如搜索場景,我們先做好信息搜索、大模型「閱讀」順暢,又改善了信息源的陳列,提供了又簡潔又分層次的信息源,提高生成内容的可信度,規避大模型的幻覺。
後面圍繞着搜索、閱讀、寫作、畫畫和創作等場景做好,這些被視為大模型的基礎能力。
我們做產品經常說,做加法容易,做減法難。這是為什麼我們一開始就用很少的東西,用一個 AI 搜索做,另外還有一個發現頁面,上面有些智能體,目前并不多。這也代表騰訊一個做產品的理念,小而精,做減法。先瞄準能提升大家效率的、最有用的場景,把它做透。我們希望提升信息組織、以及信息被找到的效率。
張鵬:為什麼不做娛樂產品?是產品取向選擇,做提升生產力更重要?還是從技術上來看,認為做娛樂對于技術提升不重要?
劉煜宏:不是說娛樂不重要,大家還是需要情感陪伴的。當下先選擇工作和學習場景,第一個有選擇的原因。第二個,當我需要陪伴的時候,AI 能給到什麼樣的幫助?角色扮演的產品有很多,但(模型)能力做不到那麼好。打發時間,暫時只能做到這點。
張鵬:人們對「殺時間」的事包容度高,模型能力沒那麼好也能沒準讓用戶願意掏錢。
劉煜宏:對。這是選擇問題。我覺得選擇娛樂場景這個目标,對目前大模型的這個階段的發展不是很好。基于對自己的認識和選擇,先把技術能做的做好。我們先把底層模型、基礎的產品體驗、元寶體系做好了,在此之上開放一些東西,就像微信,小程式,公眾号,都是生态。那娛樂的事情就交給生态產品,QQ、遊戲、視頻、音樂,他們做娛樂場景比我們更擅長。
張鵬:騰訊本身就是一個龐大的產品生态,元寶未來會跟騰訊的產品體系打通嗎,比如微信?這方面有什麼計劃?
劉煜宏:我們跟微信團隊一直有互動。比如元寶裡用得好的東西想要分享到微信,或者在微信裡傳個檔案,能不能用元寶打開?這些互動,我們有探讨怎麼做會更好。但因為微信用戶非常龐大,任何一點小改動,都可能影響上億人的體驗,所以也非常謹慎。
5 月 30 号元寶發布之後,外部解讀元寶和騰訊生态產品的打通,有點出乎意料。我們确實會考慮與騰訊生态如何互動,但畢竟元寶還是一個很小的產品,還在嘗試階段;另外,用戶需求真的是慢慢發展起來,才會變成所謂的戰略,我們并沒有上帝視角,還是基于用戶的需求來考慮。
比如面對用戶搜索的需求,我們要做一個什麼樣的信息檢索,搜哪裡?那我們有搜一搜、新聞、視頻、音樂、企鵝号,包括公眾号是一個很好的内容源,這是一個順理成章、跟着用戶需求慢慢出來的事情。
我們也看到很多創作者來說,元寶 App 裡加入公眾号的内容源是一件非常好的事情,一些好的内容都被遺忘了,元寶還能把它挖出來,讓它重新火一把。
但我們有一些更長期的目标,我們考慮的是,混元怎麼支撐内部業務、做到何種程度。
張鵬:看來騰訊對自己要求很高,就像你說的,如果沒有吃過自己的狗糧,沒有真正用起來,不太願意讓别人為我付代價。但同時,這會不會降低了對外開放、快速迭代探索的可能性,讓更多力量一起「共創」本身不就是一種「技術紅利」嗎?
劉煜宏:确實,讓更多人進來,用戶、開發者、企業進來,一定會產生更多可能。混元一方面是通過内部比較全面的生态體系來打磨、創新。經歷了内部的一輪洗禮,外部的需求會更遊刃有餘。而且,任何一個東西,你拉長看,現在的進展可能會顯得微不足道的,假如外面是個大海洋,先在湖裡面練好遊泳再出去會做得更好。
同時我們也有混元 API 供外界用,其中混元 lite 的模型是直接可以免費使用,還有元器開發平台,上面已經有很多開發者做智能體,然後分發到元寶、QQ、小程式等渠道上面去用。
比如騰訊雲的同事會基于做好的底層基礎模型,做行業大模型,針對企業做服務。這部分增長非常迅猛,免費模型的調用量、付費版都增長了很多,我們也要投很多資源來支持、優化。
03 AGI 是信仰,眼下的目标是:讓模型多一些思考
張鵬:你怎麼看 Character.ai,一個以前不存在的產品形态在未來的發展空間,以及對于技術的要求會是怎樣的?
劉煜宏:類似角色扮演的需求,我們在 ToB 的場景裡也遇到了,比如類似智能客服的接待助手。會告訴它「你是誰」,但發現聊了幾十輪之後,它可能就忘了自己是誰。
Character.ai 很火,我們做了很多用研,但最後選擇沒做類似產品,因為混元還是希望做一個(技術)平台,我們會往它所需要的底層能力去做,長文本、長視窗的能力、記憶能力等。
這些角色產品的探索可能更适合騰訊的產品團隊,他們來做會有更多想象空間。另外,從騰訊的角度看,也還是希望打底座能力和產品,把空間開放給市場上更多創業公司。
張鵬:所以你目前看得不是產品,而是產品背後需要的能力和長期有沒有意義。我可以理解為,混元的目标是做好技術底座,為騰訊豐富的產品條件和用戶場景,做好 AI Native 的準備?
劉煜宏:一定程度說可以這樣說。但混元團隊也沒走過大模型這條路,也要探索原生的應用和創新。
就像剛提到的元器,我們做好底座,創作、工作流平台,業務部門和用戶拿來做智能體,實現各種各樣的想法,這是我們的定位。
我們做探索的同時,把底座的技術能力打造好,這是有門檻和難度的。
張鵬:有人說對國内的大模型來說,GPT-4o 是「必答題」,Sora 是「選答題」,哪些在你們看來是技術趨勢上的必答題和選答題?
劉煜宏:GPT-4o 和 Sora 背後代表的多模态甚至全模态,對我們來說都是必答題,但一般沒做出來之前,也不會對外說。
做與不做,可能只是一個特定資源條件下的選擇問題。
騰訊為什麼必做?因為騰訊業務場景齊全,社交、遊戲、内容,每個模态跟我們場景都有契合點,不做的話,可能某個方面未來會缺。
一個東西将語音、文本、影像、視頻都能搞定,全模态進,全模态出,需要一些時間和資源。也許每個階段會有不同重點。
張鵬:從混元的角度,你會怎麼定義 AGI?
劉煜宏:目前 AGI 作為信仰比較合适。業界沒有一個對 AGI 量化的定義,連定性都未必定的出來。可能從業務的角度,可以定義一個可以操作執行的 AGI 目标。
但我最近在思考,讓模型稍微多一些思考,這件事挺重要的,因為可能生成的質量會比過去高很多,我們接下來可能會花更多時間在這裡。
ChatGPT 最早你問他一個問題,他馬上吐字回答問題,有點像「快思考」或者說沒有思考的直覺反應,但它可能怎麼也想不出來一個空城計。
讓模型做 AI 搜索,或者其他讓它多加幾層思考、強迫他多做思考的動作,有助于進一步提高模型的推理能力。
7 月 1 日,「騰訊元寶」AI 搜索能力更新,上線深度搜索模式,可從深度和廣度兩方面,提供更結構化、更豐富的回答,并可同步生成内容大綱、思維導圖及相關人物事件梳理。|來源:騰訊
張鵬:有沒有對需要達到的能力範疇的定義?
劉煜宏:過去幾年裡有句話比較流行,有多少人工就有多少智能。以前智能是靠人堆起來的,人類對齊有很多數據要标注,甚至 OpenAI 也靠高質量的标注。坦白來講,目前要做到(絕對的)AGI 沒有那麼樂觀。
務實一點看,針對騰訊内部那麼多的業務,如果大模型能把他們的需求都搞定,那可以說它具備了比較好的智能,這可能是通向 AGI 的最佳實踐,工具或技術從來都是滿足人的需求。
目前面對騰訊内部接近 700 個業務的需求滿足情況,如果讓我打分,一部分場景合格,但是大部分坦率來講只是暫時夠用,要用得好,還有很多努力要做。在這個過程中探索 AGI,也可以算我們的一個實踐路徑。
當然我們也有比較前沿的科學探索,騰訊 AI Lab 在做等等,要花點耐心,把應用和研究結合起來,一起做。
張鵬:想象一下混元在三年以後會什麼樣?
劉煜宏:這個年代哪能定三年目标,因為技術曲線仍然陡峭,邊走邊看。
要說做產品,很像寫小說,有的時候不是一開始就想好結局。比如 Sora 出來之前,做文生視頻的肯定不會走那條路。GPT-4o 之前,大家覺得 4V 很牛了,變化太快了。
我們投了很多資源,做好長期戰鬥的準備。讓我想,三年如何講做成功了,可能無非是 AI in all。
張鵬:不是一下投進去,而是所有的東西都被 AI 逐漸滲透進去。
劉煜宏:大模型要改造流程和產品。我希望不用到三年,騰訊產品和技術平台都用大模型做了改造,讓大模型幫大家做降本增效的事情,這是我對未來的所想。
* 頭圖來源:極客公園
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO