今天小編分享的互聯網經驗:對話面壁智能李大海:AGI是一場馬拉松,我們不急于當破風者,歡迎閲讀。
文|武靜靜
編輯|蘇建勳
湧現(Emergence),是生成式 AI 浪潮的一個關鍵現象:當模型規模擴大至臨界點,AI 會展現出人類一般的智慧,能理解、學習甚至創造。
「湧現」也發生在現實世界——硅基文明一觸即發,AI 領網域的創業者、創造者,正在用他們的智慧與頭腦,點亮實現 AGI 的漫漫征途。
在新舊生產力交替之際,《智能湧現》推出新欄目「湧現 36 人」,我們将通過與業界關鍵人物的對話,記錄這一階段的新思考。
歡迎關注
"AGI 是一場馬拉松 ",在 2023 年的一次晨跑中,這句話突然閃現在面壁智能 CEO 李大海的腦海中。
作為一名馬拉松愛好者,李大海知道,長跑關鍵不在起跑,而是在節奏控制和體力分配。彼時,百模大戰愈演愈烈,更多人關心的是 " 爆發力 " 和 " 速度 ",所有科技公司都以百米衝刺的勁頭,往 GPT-3.5 乃至更遠的方向狂飙。
"我們不急于一開始當那個破風的人。" 李大海曾和身邊的人談起他的思考," 而是要從全局出發,考量整個系統的優化,和過程中節能的策略,跑到最後才是勝利。"
2023 年底,面壁智能的一次總結會上,一個詞語被頻繁提起——" 高效 "。
面壁智能首席科學家劉知遠和 CTO 曾國洋對這一關鍵詞已司空見慣。
劉知遠團隊是中國探索 AI 大模型的第一波人,當時訓練和應用大模型極其燒錢,讓很多研究者望而卻步——如何從零開始,建立訓練、微調到推理應用的全流程,如何把每一塊顯卡、每一個參數的作用都發揮到極致,這些都是卡在眼前的一道道難關,而提升 " 效率 " 成了當時大模型研究起步的關鍵點。
這樣的情況下,劉知遠團隊将大模型這塊硬骨頭啃了下來,2020 年 12 月,通過全棧自研的技術,劉知遠、黃民烈與韓文弢帶領的團隊發布了全球第一個中文開源大模型「CPM」——這是面壁 CPM 大模型的前身,也是中國第一個大模型項目 " 悟道 " 大模型的前傳。
2021 年初,在智源研究院籌備 " 悟道 " 大模型項目過程中,劉知遠團隊也作為主力參與,并圍繞更 " 高效 " 的方向預訓練大模型。
可以説,在面壁創立之前," 高效 " 就是烙印在這支團隊骨子裏的印記。
那次總結會上最末的提煉環節,劉知遠脱口而出:" 高效和通用就是 AI 可持續發展和應用的本質,也是面壁做大模型的核心。"
團隊一拍即合,将 " 高效 " 作為面壁構建大模型的第一性原理。李大海回看認為,這場 AGI 馬拉松長跑中,面壁也真正厘清了自己節奏和步調。
所以,面對日益激烈的競争,當下的李大海反而多了些笃定。對于面壁是誰,要做什麼,往哪兒去,也有了更多信心。
在和李大海的對談中,我們感受到另一種 " 現實主義 " 的樣本和叙事視角——在這場以大模型之名搭建的碩大棋局中,不只有最快拿到大筆融資和瘋狂燒資源的大玩家才能參與對弈,焦點之外,一些低調務實的創業公司亦坐于牌桌——他們未能拿到最頂級的錢和資源,但仍在精心布局 " 攻防策略 ",努力把每一顆 " 棋子 " 發揮出最大的價值,下出别具辨識度的招式。
在與「36 氪」一個多小時的聊天中,相比 AGI 終局這樣的話題,李大海更樂意談論大模型的落地和實踐,他説了22 次 " 落地 " 和 " 高效 ",提了 16 次 " 市場 ",談及最近令他有成就感的事:" 有人自發在國產芯片上跑面壁新的‘小鋼炮’系列端側大模型,還有人把模型跑在了手機上。"
在當下的大模型創業浪潮中,面壁希望兼顧技術理想和現實主義," 高效 " 成了貫穿始終的關鍵詞,用李大海的話,就是 " 讓大模型用更快的速度,更低的成本,同等的數據量跑出更好的效果。"
如今,各家公司都在如何實現 AGI 的實現路徑上給出不同的解題思路,在 2023 年和 36 氪的對話中,月之暗面創始人楊植麟就強調,長文本将是制約大模型落地的關鍵因子;在今年 2 月和階躍星辰 CEO 姜大昕的對談中,他給的思路是 " 單模态—多模态—多模理解和生成的統一—世界模型— AGI(通用人工智能)。
對于 Scaling Law,面壁加了一重 " 效率 " 層面的理解," 在同樣的時間、同等參數量的條件下實現更優的大模型 Scaling Law,比如把模型知識壓縮的效率做到極致,把更多的高質量數據壓縮進一個更小更優的模型中。"
在落地層面,目前面壁圍繞 " 更經濟 "" 更高效 " 這條路,選擇優先在 to B 場景挖掘大模型的落地機會。公司已攜手招商銀行、金山辦公、知乎等合作夥伴,将大模型與 Agent 技術部署落地于金融、教育、政務、智能終端等應用場景。
李大海不認可所謂的技術信仰派和市場信仰派論調,他覺得 " 太極端了 ",面壁要走的也不是某一條路,而是如何做好市場和技術這道乘法題,打造 " 更高效、更經濟的 AGI"。
讓 AGI 更高效和更經濟是個誘人的方向,但實現起來非常艱難,就連 OpenAI 也在想方設法解決這些難題。OpenAI CEO 奧爾特曼在最近一次和 OpenAI COO 布拉德 · 萊特凱普的對談中提到,他們可以将非常高質量的 AI 技術成本降至接近零,但不确定因素依舊很多,"沒有足夠的計算資源,世界供應和需求失衡,工程化問題導致計算成本非常高等都是問題"。
對于面壁和知乎的關系,李大海也不諱直言," 外界對我們和知乎的關系有誤解 ",他透露,雙方只在數據層面有深度合作,但雙方的產品都由各自的團隊進行設計和研發,面壁會給予更多如何用好模型的建議,但不介入具體的業務。
多年的創業經歷也讓他有足夠的心力去面對更多的質疑和不被理解。" 不被理解很正常,這也代表着面壁走在技術前沿。假如一個新路線,剛提出就得到一致認同,那這個 idea 該有多平庸!"
以下是 36 氪和李大海對話實錄,經編輯整理:
面壁智能煉大模型第一性原理:打造更 " 高效 " 的 AGI
36 氪:當下,有很多在探讨技術信仰派和市場信仰派這兩種主張,面壁站哪邊?
李大海:我覺得不能走極端,所謂的 " 技術信仰派 " 和 " 市場信仰派 ",只是兩個重心。純粹的技術信仰派,本質上就是個研究院,純粹的市場信仰,會類似一個 " 特别薄皮沒有餡兒 " 的公司,兩個都不可取。
哪怕 OpenAI 也不是純技術派,雖然他們的技術積累深厚、對技術方向的把握很好,但同時也非常關注市場,ChatGPT 在產品體驗上是非常好的,是否推出 Sora 以及什麼時候推,時機把握也都很有火候。
面壁肯定是一個更以技術為内核,但同時要非常關注市場的團隊。做大模型一定是要有一個重心,重心是技術,但是不能沒有對市場和對用户的敬畏。需要邊打磨技術,同時格外重視 PMF。
36 氪:面壁一直是這種 " 兩條腿走路 " 的發展路徑?
李大海:" 兩條腿走路 " 這個詞不太準确,好像是説我不知道哪一邊是對的,就兩邊都往前走,看哪邊是對的。
我們的理解是,技術和市場的結合是一個乘法關系,你有技術,但也不能藐視市場,否則做出來就是個研究院,沒有哪個公司是靠研究院成功的。
但如果你沒有核心技術,光想着做市場也不行,現在的大模型時代裏,技術就是公司最核心的東西。
36 氪:面壁對 AGI 的理解和其他家有什麼不同?
李大海:如果談的是 AGI 的終态,大家差别不會特别大。AGI 最終是一個通用的人工智能,它能在現實世界和虛拟世界裏的大部分任務上都比人類做的更好。
不同的地方在于每家公司通往 AGI 的實現路徑上,哪個事情先做,哪個事情後做,每家公司都有自己的認知、理解和選擇的不同。
面壁現階段的選擇就是" 高效 ",沿着這條路徑,能夠更快、更可持續地向 AGI 發展。尤其,今天大家普遍認為,現有人類積累的訓練數據将接近枯竭,接下來的競争在于誰的合成數據更多。從我個人角度來看,現有的數據已經足夠培養出全球各行各業的人才,關鍵問題不在合成數據,而在于更高的模型學習效率。
宏觀來看,如果沿着當前的主流思路進行 AGI 探索,不僅需要海量的高質量數據,還會很快遇到能源供應方面的瓶頸。中國是過去十年世界上少有的電力供應持續增長的國家,這為我們做大模型帶來了優勢,但環境壓力對全人類社會的影響巨大。在這種背景下,要廣泛落地 AGI,技術對環境帶來的作用力,會讓環境形成反作用力最終會回到企業身上。
36 氪:面壁對 Scaling Law 的理解跟其他家有什麼不一樣?
李大海:我們在探索一條更加" 高效 " 的 Scaling Law 增長曲線,讓大模型用更快的速度、更低的成本,同等的數據量跑出更好的效果。
Scaling Law 表達的是,大模型的智能會随着模型規模、訓練算力、和數據的擴大而提升。在 Scaling Law 中,相對于 " 把模型做大 ",我們更關心如何讓模型 " 有效訓練更多數據 ",這才是更本質的東西。
模型訓練本質上是一個知識壓縮的過程——把大量優質數據壓縮到模型裏,形成一定的 " 智能 "。給定同樣多的數據,如果用更高的壓縮比,更小的訓練算力,把數據中藴含的知識壓縮到一個更小的模型裏,那就是更 " 高效 " 的訓練。
我們相信,這個知識壓縮的過程是否高效與優質,會成為驗證模型公司技術實力的重要指标。
36 氪:壓縮比更高帶來的具體價值體現在什麼地方?
李大海:它意味着更高的訓練迭代效率,更低的推理成本,完成相同的模型推理能力。
壓縮比更高對大模型落地、真正地實現 AGI 至關重要。在 to B 的私有化部署實踐中,模型大小對于客户的決策的影響很大,因為機器會成為模型采購之外很大的成本。
在 to C 業務中也是一樣,因為 GPU 推理成本較高,導致,大模型原生產品的單個 DAU 的技術成本是傳統移動互聯網業務技術成本的十倍以上,這對于追求 ROI 的業務模式是很大的挑戰。
另一個例子是端側。端側是大模型規模化擴展和應用落地的關鍵場景,比如把大模型部署到手機、汽車和 PC 上。但因為終端的算力和發熱、續航能力,模型必然會在尺寸和計算量上受限,所以我們必須在端側模型中壓縮大量知識,并在模型上集成更多适配端側場景的模型能力。
從技術發展的角度來看,在通往 AGI 這條路上,更高的壓縮比也能幫助我們在更短的時間内實現趕超 GPT-4 目标,讓 AGI 到來的成本降下來,速度提上去。
36 氪:怎麼理解你前面所説的 " 高效 " 的 Scaling law 路徑,具體指的是什麼?
李大海:我們對 " 高效 " 的理解有三個方向。第一是高效的訓練。幾個月前發布的 MiniCPM,實際上是完全驗證了面壁高效模型訓練模式的徹底跑通。
過去一年,我們在 " 高效 " 這條路上進行了大量的工作,進行了上千次 " 模型沙盒 " 實驗,對大模型訓練過程進行精準建模、預測,實現同等參數性能更優、同等性能參數更小效果。最終,以 2B 的參數量,實現了超越 Mistral-7B,越級比肩 Llama2-13B,乃至更大的幾十倍規模模型的模型性能。要達到同樣的效果,國外其他模型用了遠比我們的多得多的訓練語料。
36 氪:另外兩個方向是什麼?
李大海:另外兩個是高效的落地和高效的推理。
高效的落地方向,面壁主要以 Agent 技術為核心,同行都評價面壁是大模型公司裏最懂 Agent 的公司。2023 年,我們就對外強調 Agent 很重要,并發布了大模型驅動下的 Al Agent 單體智能、群體智能和智能體應用框架產品,我們的 ChatDev 智能體軟體開發平台今年也得到知名人工智能學者吳恩達的點贊,在紅杉大會上做了特别推薦。
高效推理指的是目前面壁在前沿探索的端雲協同的技術。
為什麼端雲協同很重要?因為終端擁有大量分散的計算資源,比如手機、汽車等終端設備。把這些計算資源用起來,讓雲端和終端,一大一小的兩個模型協同工作,共同為用户提供完整的服務,可以大大降低推理成本,解決能耗大、可靠性低、時延長、用户隐私安全等等問題。
36 氪:除了 " 高效 " 之外,大模型還有很多工程化的難題,也有公司現在不考慮高效,先想法設法達到 OpenAI 的水平,這也是一種選擇。
李大海:大模型是一項系統工程,AGI 實現的過程會角逐出最優解決方案。我們想挑戰難而正确的事。
36 氪:把高效提到公司的戰略層面,這個決策是在碰撞中形成的,還是最早這麼規劃的?
李大海:面壁創始團隊在 day one 就非常關注效率。2021 年初,我們團隊就一直圍繞高效做很多事情。随着工作的展開,從外部的視野觀察,發現确實相比其他模型團隊的 AGI 方法論有比較明顯的特色,逐漸形成了更清晰的自我認知。
36 氪:當時 " 高效 " 這個方向是誰最先提出來的?
李大海:是知遠。從一開始的 " 悟道 " 大模型項目,他領銜的方向就一直強調 " 高效 "。
36 氪:你和劉知遠做決策時各自分工是什麼?
李大海:經營戰略方向主要是我來制定,比如現階段的商業化方向和節奏等,技術戰略方向主要由知遠決定。
Agent 能幫助大模型解決落地最後一公裏難題
36 氪:為什麼面壁要押注 Agent,Agent 為什麼重要?
李大海:在當前這個階段,大模型落地還有最後一公裏問題,Agent 可以解決這個問題,更準确的説,Agent 不一定能完全解決,但能非常顯著地提升大模型落地的效率。
在具體落地中,Agent 能夠更好地與企業客户的環境相結合,它們可以調用客户的工具,并與客户的私有知識更好地結合,而無需進行微調。其次,這些技術還能進一步挖掘出模型能力,反哺模型性能提升。Agent 這兩個方面的價值,讓大模型得以更高效地落地。
我們開始做 Agent 研究比斯坦福小鎮還要早,那時候還沒有 "Agent" 這個提法,我們就在講,如何讓工具自主學習并去使用工具。2023 年初,團隊就發表了一篇 Agent 相關的論文《ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs》。
36 氪:目前市場上,大家對于 Agent 的認知和它能做的事情的理解已經形成共識嗎?
李大海:對 Agent 的理解在 " 是什麼 What" 層面上在慢慢的形成共識。但是在 " 怎麼做 How" 的層面,大家的認知差别還蠻大的。
36 氪:差别在什麼地方?
李大海:比如多智能體協同這些技術怎麼往下去落地,這個層面上現在還處于很早期。
在單體智能方面,通過 RAG 與外部知識庫互動、使用既定流程進行工作已經逐漸形成了收斂的最佳實踐,也是相對容易做到的。但我們認為多體智能才是未來,單體智能的基礎不是單個的 Agent,而是 Multi Agent(多 Agent)背後的模型,未來他們在場景中價值會被逐步放大。
36 氪:過去一年融資過程中,投資人提出了哪些不一樣的觀點?
李大海:現在市場上,行業裏有很多非共識。我不去評論其他人的觀點。但從整個人類探索 AGI 的角度上,這是好事,百家争鳴,大家有不同的路徑去試錯,效率更高。
現在所有人距離 AGI 都很遠,還在馬拉松的前幾公裏,這個階段不需要追求整個社會的共識。我們希望選擇一條更高效的路徑,為 AGI 提出一個成本更低的方案。
36 氪:你怎麼面對不被理解和質疑的聲音?
李大海:當走得足夠前沿的時候,不被立即理解是正常現象,做創新首先要有一顆大心髒。假如一些階段性的不理解我們都消化不了,那這家公司可能壓根也不配參與 AGI 的角逐。
面壁一直是個喜歡打先手的團隊,走得很靠前。前行者不應該尋求大多數人的理解,但我們希望尋求歷史的驗證結果。譬如,我們對技術路線的選擇,每次都在很早的時間選對了正确方向。
我們是中國真正最早做大模型的團隊,先 kick off 了 " 悟道 " 大模型的前身項目,2020 年就發了國内首個中文大模型;2022 年,ChatGPT 還沒火之前,團隊已經在 B 站上開設了專門的公開課講解大模型,那個時候根本沒人看,到 2023 年觀看人數已經超 100 萬;2023 年我們又開始探索 Agent,理解的人也不多,但你看,後面大家都越來越認同了。越來越有信心,因為結果説明一切。
這個市場上其實還是有很多懂技術的投資人,他們很認可我們的價值。投資本來就是在早期非共識中找到有價值的公司的過程。一定是少數人的選擇。如果是共識,就不是一個能夠得到超額回報的機會了。
大模型商業化:B 端優先級更高,更關注 PMF
36 氪:目前面壁整體的商業化的進展情況怎麼樣?
李大海:整體項目進展順利,效率比較高。
2023 年,我們和招商銀行、金山辦公、知乎的合作持續加深,并成功拓展了更多客户,服務了更廣泛的客户群體,包括義烏小商品市場集團、易慧智能(易車網)等。今年我們将更加專注于與這些合作夥伴的深入合作,推動大模型更深入地融入客户場景。
36 氪:這些都是 B 端客户,我們 C 端和 B 端商業化的優先級是什麼?
李大海:B 端在給我們持續貢獻收入,我們希望能把優勢場景打透,把模型高效、低成本落地給扎實做下來。
C 端會先探索,目前大模型 PMF 遠未找到成熟方向。在移動互聯網時代,當移動手機首次出現,經過了 2-3 年時間,才真正出現成功的大規模用户產品。新產品都需要經歷技術與用户需求理解、相互匹配的過程。盡管這個過程可能需要兩到三年,但那些最終成功的公司都是在一開始就進行了相關的努力。因此,我們在 C 端也在持續進行探索。
36 氪:你之前有很多搜索等互聯網產品方面的經驗,對于大模型原生的超級應用,是如何理解的?
李大海:AGI 未來超級應用可以向兩個方向發展:首先是虛拟數字世界,未來會出現類似元宇宙那樣的開放世界,在這裏 AI 應用将發揮巨大價值;在現實世界,AGI 技術與機器人的結合是重要方向,機器人會超越手機,成為一個全新的、強大的超級終端。
AGI 原生應用将極大地改變以 AI 為代表的機器與人的互動方式,甚至改變人與機器之間的關系。目前,人們使用機器的方式更像在使用工具,我相信未來機器将不僅僅是工具,更是聰明的夥伴,甚至會擔任我們的導師。這種從工具到夥伴的轉變,标志着人機關系本質上的變化。
36 氪:Sora 發布的時候,我們團隊對這個技術的理解和當時的态度是什麼?
李大海:Sora 是文生視頻技術,是在研究怎麼生成更好的可被消費的内容,我們認可這個技術,但它跟我想要走的方向不是一個方向。我們希望聚焦。
36 氪:用其他大模型公司產品時,發現回答中信源有三條文章都來自知乎的,面壁跟知乎之間這種深度合作是排它的嗎?
李大海:知乎是中國最高質量的内容平台之一。在大模型訓練方面,面壁獲得了知乎的正式授權,知乎把全量的不涉及用户隐私的公開數據都獨家授權給我們了。所以在訓練模型的第一天,面壁就拿到了中國最高質量的數據,這個是我們模型訓練的優勢。
我們跟知乎的合作是深入的,在模型訓練上有很多合作,不過對于模型如何應用到產品中,則有各自的規劃。目前知乎 App 也上線 AI 搜索的功能,搜索質量也還不錯。
36 氪:面壁和知乎的深度合作中,如果面壁把知乎中某些應用排在優先級更高的位置,是否影響面壁整體的節奏?
李大海:我們的合作主要集中在模型的開發上,知乎内部的應用是由知乎團隊自己負責。知乎本身具備強大的技術實力,他們有能力把模型用好,面壁并不會介入到知乎產品的研發中,這種合作對面壁的模型研發節奏并沒有影響。
36 氪:國外的開源技術進展會導致整體中國技術相對落後嗎?
李大海:在 OpenAI 完全閉源之前,AI 行業已經建立了一個基于開源和開放的繁榮社區,這種開源精神極大推動了行業快速發展。
開源不僅促進了相互學習和借鑑,還加速了技術水平的整體提升,是一種技術層面的互相切磋和促進。歷史上,如 Google 發布的 Bert 模型,被廣泛應用并促進了技術的提升。OpenAI 的一系列工作,也是建立在 Google 的 Transformer 等工作基礎上的,這證明了開源開放的重要性。
面壁智能也會堅定地擁抱開源。我們最近兩個月連續研發了 MiniCPM 1 和 2,并且非常開放地分享了我們的心得,也希望這些知識能夠促進整個行業的發展。這種開放的精神最終将惠及所有人。
36 氪:舉一個例子,萬一 Meta 下一個開源的產品強于 GPT4 了,那豈不是之前國内公司很多都白做了?
李大海:競争是殘酷直白的,沒有特點的模型确實沒有價值。但訓練模型的一時落後不代表的團隊的一世落後。
中國工程師們既聰明又努力,一時一刻的落後,都是暫時的,在訓練模型過程中積累的數據處理能力和基礎模型能力對于公司來説極其珍貴,它們都能夠有效地促進應用的實際落地,成為這些公司寶貴的資產。
接下來更重要的是,每個公司都要想清楚自己的模型和產品的差異化,真正給用户或客户帶來價值,才能一直留在通向 AGI 的牌桌上。
36 氪:接下來面壁最重要的事情是什麼?
李大海:之前行業談論自動駕駛的時候,有一個詞叫 " 沿途下蛋 ",大模型技術也一樣,不同的是,大模型就是一個随時可以沿途下蛋的事物,我們的目标雖然是 AGI,但從 day one 開始就可以有產品。
所謂的超級應用,就是杠杆最大的那個產品。還它還沒有出現之前,還有很多事可做。面壁一方面技術要不斷地往前滾,一方面也要下幾顆 " 金蛋 "讓大家看到 AGI 孵化出殼前長什麼樣子。
36 氪:大模型相關的領網域,你還有哪些困惑或者是最想得到解答的問題?
李大海:相比困惑,我更願意説興奮。在這個偉大的技術與文明變革周期,會将最值得探索的 Big Question 送到我們面前,讓所有這個時代最聰明的頭腦一齊提出自己的思考和解法。你不知道哪一天,哪個人,提出的哪個想法,就會深刻改變未來技術與人類的發展走向,偉大的想法也許就誕生在你的團隊、你的朋友之中。太多的問題需要思考,但每分每秒都令人振奮。
具體有幾個,比如,是否還有比 Transformer 架構更好的選擇?比圖靈測試更有效的測試大模型智能的方式是什麼?以及我們正在思考的關于 " 高效訓練 " 的問題:世界擁有的所有數據是否足夠訓練出 AGI 水平的智能?AGI 的能耗是否能做到和人類大腦可比?這些問題都非常有趣,關鍵不在于誰能夠給出這些問題的答案,很多時候偉大不可被計劃,但我們應該與同行們一起努力,探索這些問題的過程就非常享受。
歡迎來聊~