今天小編分享的科技經驗:九合報告:不朽的計算——比特連接世界,詞元生成未來,歡迎閱讀。
計算,作為一種表達與理解世界的方式,它引起的颠覆正悄然發生。2022年,ChatGPT抓住了全世界的想象力,讓人們意識到AI的重要性和能力上限。在此之前很長一段時間裡,AI 的相關研究和應用主要集中在解決特定問題和任務上,而AGI的實現一直被認為是一個更為復雜和遙遠的目标。2023年,生成式AI應運而生, AIGC時代大幕徐徐開啟。
作為一家早期投資機構,九合長期在一線關注"計算演進"帶來的結構性變革。我們既保持着與最前沿創業者的高頻交流,也不曾懈怠以宏觀視角去思考脈絡,推演未來。站在今天,我們觀察到:計算正從一種輔助性質的工具,逐步演進為從神經網絡算法開始湧現的一種"類似人類"的工作方式。從工具,類人到未來可能的超越,計算正湧現出無限的生命力和擴展性,其擴展的邊界正在迅速蔓延,直至計算的範疇超出個體的生命邊界與生命經驗,直至計算的維度超出單一勞動力的知識密度和知識體量,直至計算數字化一切,不朽的計算成為現實。
我們認為,AI将成為下一代計算平台,智能體本身将不止于提升生產效率,而是有可能作為新興超級生產力真正參與到經濟生產與社會生活中,而我們正處于平台轉變的初期階段,這将深刻影響未來投資與創業機會。
一、計算不朽:對世界理解與表達的迭代
在人類歷史的大部分時間裡,我們都有點像LLM,基于經驗,通過匹配我們頭腦中的知識和思維模型來解決問題。
幾個世紀前出現了更系統的形式化,數學符号和"數學語言"的發展為數學提供了一種系統的表達方式,并使代數、微積分以及最終的現代數學科學成為可能。從數學科學的所有成功中,我們開始相信,一定有公式來預測一切,期望總結出一些規律,然後通過規律推理演繹出新的規律。從工業革命開始,理性主義更是成為主流,我們一直習慣于做工程,從"看到齒輪是如何齧合的"從而"理解"事物是如何工作,逐步提高生產力。
不過,上世紀30年代,哥德爾和圖靈時代對純邏輯系統的能力已經有了明确界定,提出了不完備定理,說明純邏輯系統是不完美的,一定會推導出相互矛盾的結論。即使是數學也無法最終證明一切,我們總會面臨一些無法證明的事實存在的情況。
之後,我們步入計算時代。過往的歷史中,我們傾向于把計算視作一種工具(Tool for human),這個工具以盡可能低的成本,提供了遠低于人類智慧的輔助功能,帶動人類在各個領網域實現自己的想法。自1950年代以來,"邏輯驅動"的人工智能曾主宰很長一段時間。彼時,人們相信依據邏輯的程式是簡單的,他們認為人工智能不要急着去"學習"——在我們理解了如何表示事物之後,學習就很簡單了。為了抵達智能,科學家們為每個不同問題編寫不同程式,紛紛變成"勞動密集型"工種。但人們低估了現實世界的復雜度,問題越大,程式越復雜,越難以細化推導,純粹基于邏輯是不足以應對的,這條路進展緩慢。
随着AI計算不斷發展,不同的路徑開始展現。在AI發展的早期,最開始基于小規模專家知識逐步發展為基于機器學習的推理。1980年,卷積神經網絡的雛形CNN誕生。1998年,現代卷積神經網絡的基本結構LeNet-5誕生,機器學習方法由早期基于淺層機器學習的模型,變為了基于深度學習的模型,為自然語言生成、計算機視覺等領網域的深入研究奠定了基礎。2013年,自然語言處理模型 Word2Vec誕生,首次提出将單詞轉換為向量的"詞向量模型",以便計算機更好地理解和處理文本數據。2017年,Google颠覆性地提出了基于自注意力機制的神經網絡結構——Transformer架構,奠定了大模型預訓練算法架構的基礎。由此開始了今天意義上的大語言模型的突破式進展。
深度學習作為跨學科產物,擺脫了數理邏輯的束縛,吸納了生物學思想,不追求解釋和邏輯,以神經網絡開啟了"暴力美學"大門——它認為智能的本質是在神經網絡中學習連接的強度,不着急去"推理",在學習完成後,推理自然就來了,計算機從數據中學習、進化,讓人工智能變成"數據密集型"學科,最終從應用表現中明顯勝出,主導當今人工智能的發展。
"計算"開始成為一種更新、更強大的方法,我們用數十億頁的網頁來訓練LLM,這樣它們就能生成典型的人類所寫的文本,海量數據的"計算"開始逐步展現了不可還原性,我們很難用傳統簡單的人類叙事,或者說數學叙事來解釋或預測一個系統會做什麼。經過深度學習訓練的計算機,不再被動按照指令運轉,而是像自然界的生命由35億年前開始進化那樣,自主地從經驗中學習,并改寫着這個世界的角角落落。
人類的生活經驗通過代際經驗、基因篩選的機制跨越時間傳遞,而模型可以跨越時間、空間、學科,用海量的計算形成智能,帶給我們跨越學科壁壘、生命尺度、地理阻隔的全新思考。将整個世界置于不确定性之上,以進化湧現來考慮的思維,是計算 AI時代最根本的世界觀。
二、超級模型:累積計算的高維形态
1.超級模型:凝結計算智慧
模型是能夠沉澱智慧的計算形态。模型作為計算的呈現形式之一,賦予了計算更強大的生命力和應用範圍。在當下,每次優質的計算輸入和輸出組成了模型的訓練集,沉澱下的智慧能力表現為數億參數的高維矩陣模型。
來自于計算的關鍵元素從量變進入到質變階段,算力、數據、算法都迎來了新的發展階段,不朽的計算将帶來模型能力的質變:
算力:芯片遵循摩爾定律,正在挑戰當前光刻機的極限,為我們帶來了接近2nm的晶體管密度,這一密度接近人類大腦的神經元密度;
算法:迎來了Transformer的架構革新,為我們提供了可以容納更多數據的智慧框架,因模型架構的能力邊界拓展,Scaling Law得以将每次計算的智力沉澱在模型的高維矩陣當中;
數據:互聯網經過幾十年的發展,将人類的巨量語料完成了數字化,正在提供更多可以用于訓練的數據,越來越多的人類生活信息被線上化、數據化,給計算帶來更多學習智慧的素材。
未來,凝結計算智慧的超級模型将出現,當前所有模型都是通往超級模型的階段性形态,當前模型的能力都是未來超級模型的子集。超級模型的計算能力将會突破當前模型的邊界,超級模型的架構将是強大的通用智慧底座,和垂直領網域專家模型的調用:
就底層模型能力而言,參數體量更大的模型、多個專家模型聯合調用的使用模式,将會逐漸提升模型的智慧水平;
就模型的輸入而言,多模态會幫助模型理解問題的復雜性,從而帶來更準确的回答,更長的文本輸入将會讓模型像人一樣深度思考問題的前因後果。
超級模型的Prompt輸入,将會擴展至對齊人類的認知輸入,乃至超越個體思考的輸入水平。只有超級模型的綜合能力超越某個個體,模型的智慧水平和能力邊界才會拓展至超越人類的範疇。
模型的學習能力無限接近于人類的學習能力,但模型的學習速度、信息獲取能力因其硬體設備的可擴展性,而遠遠領先于肉身人類。如果沿着模型發展的想象力繼續推演,硬體基礎、軟體模型所支撐的"不朽的計算",将成為我們通向AGI的一種可能路徑。
2.多模态:模型的完整感官
多模态能力将是模型的标配,這既是人類擁有智慧的方式之一,也是人類處理問題的重要模态。大語言模型表現出了模型架構的智慧能力,這種模型架構也正在多模态領網域表現出"智慧湧現"的可能性,Sora正是這樣的一個範例,模型可能通過視頻學習到直接的物理規律,正如孩子可能通過小車玩具學習到慣性規律。
現實世界的情境通常涉及超出文本的信息,包括多種模态,特别是視覺方面的信息。因此,LLM驅動的智能體的下一個進化方向是獲得處理和生成多模态信息的能力,這種能力對于這些智能體演變成更加強大的AI實體,鏡像人類水平的智能至關重要。人工智能既需要處理單一模态的能力,也需處理多種模态(如視頻或音樂),甚至可以跨越不同的模态(如從文本生成影像)的能力。
Transformer 在各個領網域都表現出了卓越的縮放特性,包括語言建模、計算機視覺和影像生成。OpenAI 的 Sora 就是視覺數據的通用模型,OpenAI 首先将視頻壓縮到較低維的潛在空間,然後将表示分解為時空 patches,從而将視頻轉換為 patches。Sora 既是個擴散模型;給定輸入噪聲 patches(以及文本提示等調節信息),訓練出的模型來預測原始的"幹淨"patches。Sora 也是一個擴散 Transformer。
DiT(Diffusion Transformer,擴散模型)讓我們看到了Transformer架構在多模态領網域擴展的可能性。沿着這個思路,不同的模态(圖片、視頻、音頻、動作序列等)都有可能通過Transformer架構復合性地組織出對應的生成式大模型。Transformer在其他領網域的延伸,有望帶來多個模态内的"智慧湧現",從而讓我們看到更全面的AI智慧形态,OpenAI于5月發布的GPT- 4o就是這一智慧形态的初步體現。
3.生成世界:形成世界模型
在《How we learn》中,Stanislas Dehaene将學習定義為"學習就是形成一個世界模型",這意味着智能也需要理解我們周圍環境并建立一個内部模型來描述它們的能力。正如OpenAI發布的其訓練Sora的動機:"我們正在教AI如何理解和模拟物理世界中的運動,目标是訓練出能夠幫助人們解決需要與現實世界進行互動的問題的模型。"毫無疑問,人類的很多智能都與世界建模相關,朝着開發像人類一樣理解世界的更智能的 AI 模型邁進,是目前智能發展的一條主要道路。
人工智能通過學習形成世界模型,以期在數字世界中可控且可重復地看到在現實中會出現的結果。傳統的仿真方法需要一點點建模,積累大量工程數據,不斷調試算法和方程,去逼近真實,且當涉及到不同主體的相互關系的時候,其復雜程度在成指數級增長。而以 OpenAI Sora為代表的一系列應用嘗試,似乎讓人們看到了自學習掌握世界模型的可能,對于模型的語義理解,對于相互之間的動力學關系都有了巨大的進展,其生成式能力為我們接近世界模拟器開辟了可能性。
正如劉慈欣在早期的短篇小說《鏡子》中描述的"超弦計算機"的故事:如果用鏡象模拟方式為一個雞蛋建立數學模型,将組成雞蛋的每一個原子的狀态都輸入模拟的數據庫,當這個模型在計算機中運行時,如果給出的邊界條件合适,内存中的那個虛拟雞蛋就會孵出與現實中的那個雞蛋孵出的小雞一模一樣的小雞來,這就是最理想的世界模拟器。
三、智能體演進:以進化方式
1. 人類-人工智能-AGI智能體
(1)始于模仿的智能
人類智能的進化經歷了數百萬年,人工智能的發展只有60多年。智能是一種現象,甚至是我們可能看到的最復雜的現象。對人工智能的探索始于人類的主體性。制造工具将人類與其他物種顯著區分開來,而人有理解自己的強烈動機,探索人工智能,實現 AGI可能是人類在這一能力象限上最後的聖杯。
人工智能最初目标是擁有與人腦相同的功能,但我們不會也沒必要對大腦進行完美復制。真正的問題在于,要試圖理解這些基本原則是如何從自然界中提煉出來的,從而指導我們構建事物。某種意義上,智能的湧現與生物界的進化相似,進化的聰明難以告訴我們進化是怎麼做到的,同理智能體的發展和湧現也未必要等我們完全理解人類智能。在科學沒有給出原理幫助我們設計系統之前,我們所能做的就是構造復雜系統,等待AIGC湧現。從更高意義上說,深度學習也可以幫我們更好地理解人類自身,它提供了一個全然不同的視角,并正解開這個星球上最為復雜的奧秘——人類智能的本質。
正如特倫斯·謝諾夫斯基在1989 MIT 講座上對比的,在蒼蠅只有10萬個神經元,重量只有1毫克,消耗1毫瓦的能量,但它卻能看、飛、自我定位和覓食,甚至可以通過繁殖來進行自我復制。
而超級計算機,需要1億美元的投資和兆瓦級的能量供應,以及大量的人力來滿足它對程式的需求。盡管超級計算機可以與其他計算機交流,但它無法看、飛、交配或自我復制。
(2)何為智能體
人工智能先驅馬文·明斯基早在 38 年前就提出了智能體(Agent)一詞,介紹了智能體的互動、通信、特性、具身智能等概念。最初的智能體主要是符号智能體,還提到了記憶的構成、推理鏈、智能體之間的互動、世界模型等概念。他在《心智社會》一書中指出,每個智能體本身只能做一些簡單的事情,但是如果智能體形成一個社會,就會產生真正的智能。
Legg和 Hutter于 2017年在"Universal Intelligence: A Definition of Machine Intelligence"中提出了智能(intelligence)的定義:認為"智能衡量的是一個代理在各種環境中實現目标的能力"。同樣,在解決問題的智能(Problem-Solving and Intelligence)中,Hambrick、Burgoyne 和 Altmann 認為,解決問題的能力不僅是智能的一個方面或特征,而且是智能的本質。它不僅僅是書本知識、狹隘的學術技能或應試技巧。相反,它反映了一種更廣泛、更深層次的理解周圍環境的能力。一種"抓住""理解"事物,或者"構思"應對方法的能力。
AI智能體(AI Agents),是一種能夠感知環境、進行決策和執行動作的智能實體。它們擁有自主性和自适應性,可以依靠AI賦予的能力完成特定任務,并在此過程中不斷對自我進行完善和改進。只有當我們能夠創造出一個可以懷疑自身現實的系統,進行自我探索,至少能夠應用因果演繹來建立一個合理的世界模型時,我們才能真正實現 AGI。
AI Agent 架構包括以下四個設計模式:
反饋(Reflection):AI模型通過自我反思和迭代改進來提高任務執行能力的方法。在這種模式中,模型不僅生成初始解決方案,還會通過多次反饋和修改,不斷優化其輸出。
工具調用(Tool Use):AI模型通過調用外部工具或庫來增強任務執行能力的方法。在這種模式中,模型并不僅僅依賴于自身的知識和能力,而是利用各種外部資源來完成任務,從而提高效率和準确性。
規劃(Planning):通過提前計劃和組織任務步驟來提高效率和準确性的方法。在這種模式中,模型将復雜任務分解為多個步驟,并依次執行每個步驟,以達到預期的目标。
多智能體協作(Multiagent Collaboration):通過多個智能體之間的合作來提高任務執行效率和準确性的方法。在這種模式中,多個智能體分擔任務,并通過相互交流和協作,共同完成復雜任務。
2.大腦:從神經網絡到LLM,作為大腦模型之一的深度學習
(1)大腦是已知宇宙中最復雜的設備,深度學習是仿生產物
小孩從零開始學習語言,沒有人給他的大腦編程,但他卻通過觀察和經驗慢慢自己學會了。大自然中的生物使用了一套與編程完全不同的復雜體系來解決問題,大腦中有很多神經元和連接,數百億的神經元之間每時每刻的連接強度都不同,于是人類也嘗試建立一個類似的系統,運用和人腦相似的原理來構建人工智能,這就是"神經網絡",在傳統方法以外的特殊的機器學習。深度學習是具有多層的神經網絡,作為機器學習的一種,在近期人工智能演進中發揮了重大的作用。
深度學習只是大腦皮層的一個模型。從外部看大腦圖片時,往往只能僅看到一個表面,但它内部是折疊的,有很多褶皺和波紋。大腦皮層下面的一切都非常重要,比如身體調控、社會融合、情緒控制、運動系統、心髒及所有的内髒調節,未來還亟待探索。
(2)大語言模型 LLM——先求其然,不求其所以然
LLMs是一種基于深度學習的AI模型,它們能夠從大量的文本數據中學習和生成自然語言,例如GPT-4、BERT等。LLMs的核心是Transformer神經網絡結構,它能夠捕捉文本中的長距離依賴和復雜的語義關系。
所羅門諾夫歸納法是大語言模型的理論基礎,在所羅門諾夫的框架裡,知識的進步就是"遞增學習"(incremental learning),所有的學習都可被看作是壓縮,是用精簡的系統概括大量數據的過程。大腦就是在給單詞分配特征,并讓特征互動。神經網絡作為一個通用近似器(universal approximator),可以是實現所羅門諾夫歸納法的一個很好的候選機制。LLM将單詞轉換為特征,使這些特征相互作用,并從這些特征互動中預測下一個單詞的特征,這些數百萬個特征以及它們學習的特征之間數十億次的互動,就是理解,這是大語言模型真正做的事情,它們是在用數據拟合一個模型,實現"下個詞元預測"(Next Token Prediction)。、
所謂"有用"就是可以用來預測。正如何恺明在香港中文大學講座中提到的,可解釋性确實是個很好的屬性,但同時我們也要意識到,我們當前系統的成功,主要是由經驗證據驅動或驗證的。
3.身體:具身智能革命
大腦主要負責慢思維與推理,是智力的核心所在;而小腦則關聯着對事物的反應敏感程度,更多涉及身體的協調與運動的控制。深度學習暫時還沒有涉及小腦,它是個復雜的運動控制器,對于調節進出大腦皮層而後進入周圍區網域的信息非常重要。目前我們對模式識别底層機制的理解超過了我們對運動控制底層機制的理解。還沒有一個機器人有人類身體這樣的靈敏度和靈活性——這是個十分復雜的問題,涉及大量自由度。
AI讓人形機器人擁有新的可能。 "具身智能"概念(Embodied Artificial Intelligence)誕生于1950年。在這一概念下,借助大模型,機器人感知、決策與互動提升,機器人賦予大模型現實的物理載體,具備了更強的自主學習能力和環境适應性,以及與真實世界進行互動和學習的潛力。
具身智能強調和追求機器人泛化及大規模應用。第一,它通過嵌入大模型互動,使機器人能夠聽懂語言,理解客戶的指示,并讓具身智能體到相應的地方進行操作。第二是結構化的固定環境加上感知垂直大模型,能識别并重建環節,拓寬機器人使用的環境,提高智能化水平。
目前仍有一些問題尚待解決:
(1)如何讓機器人的大腦更聰明:現階段機器人在解決復雜環境感知、動作生成、靈巧操作等問題時存在局限性。目前,一些主流機器人大模型(PaLM-E、RT-1、RT-2、RoboCat、Voxposer等)已經能夠在本體High level執行層面上表現出優秀的決策、任務拆解、任務規劃、常識理解能力,但在數據的來源和low level的任務執行規劃上仍有待提高。
(2)Scaling Laws(尺度定律)能否在機器人基礎大模型中復現尚沒有明确證據,驗證大語言模型Scaling Laws所需的數據體量,在機器人領網域是極高的要求。
(3)具身智能大模型與硬體的融合、配合問題:人形機器人的整機結構復雜,僅零部件就超過5000個,從理解指令到執行任務,都是極大的工程量。具身智能的本體離不開感知系統、驅動系統、末端執行系統、能源供應系統、運算系統。一方面,其技術的本質是三維空間中的感知與運動,高性能的核心零部件是實現感知與運動的基礎;另一方面,控制器、伺服電機和精密減速器所占成本(目前占成本 60-70%)需要進一步降低。好的產品需要平衡技術和成本,是一個工程化落地的能力體現。
(4)落地與應用:基于具體場景的融合打磨與迭代需要時間,目前效率與成本仍是問題。具身智能在結構、驅動、動力等真實能力方面,尚未實現根本性的突破。其中,行為智能成功成本,與"行為數據采樣學習次數"乘以"每一次訓練成功的成本"得到的結果相比,其比值仍然遠遠小于1。
4.生命:解譯基因的巨量計算
人類對自身有限性的恐懼,自古以來都有不朽的願望。一種是長生不老,一種是以碳基形式復刻大腦與行為方式,實現另一種意義的永生,人類一直不懈在做着超越有限性的嘗試。
所有生命都使用相同的DNA編碼,所有的基因在編碼蛋白質時,都使用同一套密碼系統來編碼氨基酸;所有的生命都使用同一套"能量貨币",叫作三磷酸腺苷ATP。從人類到變形蟲,從蘑菇到細菌,只有少數病毒例外。生命本身被生物學家看作是一段大自然譜寫的程式代碼,生命的繁殖,發育和死亡都是被預先編碼的程式代碼。随着人類掌握了基因測序技術和基因編輯技術,人類開始破解和改寫生命的程式。但是由于人類對生命程式的破譯還處于初級階段,不能準确理解和預測不同基因,蛋白的效果是當前研發效率低下最本質的原因。
随着人工智能和生物學兩個領網域各自取得蓬勃發展,兩者的交匯也讓產業充滿興奮和期待——在大規模的生物學數據面前,機器學習技術能夠幫助人類破譯生命的程式,發現疾病的機制,擁有工程改造生命的能力。
(1)人類基因組計劃推動了基因測序行業最先落地
"人類基因組計劃"帶動了基因測序行業的快速發展,直接促成了2005年NGS二代測序技術和第三代測序技術的發明,将單人基因組測序成本下降1萬倍,從此人類開始獲取海量的基因組數據和基礎醫學的大範圍突破。
AI與生命數據的結合除了DNA, 還表現在對蛋白質數據的理解。2021年,deepmind首次通過AI深度學習訓練了蛋白結構預測模型 AlphaFold2并打破蛋白結構預測領網域的精度記錄, 随後在2023年進一步預測并開源了地球上100萬物種共超2億蛋白質結構,蛋白質作為生命活動的基石,其相關研究對藥物研發、疾病攻克、食品工程、農業、工業等領網域都有重要影響,2024 年,更新版蛋白結構及互動作用預測模型——AlphaFold3 問世,繼續将預測範圍擴展到蛋白質、DNA、RNA以及一系列配體、離子和化學修飾等更多生物分子結構,展示了用統一的深度學習架構,來建模復雜生命系統組件之間相互作用的可能性,成為"人類了解生物學動态系統歷史性的第一步"( Demis Hassabis,DeepMind CEO)。
(2)基因編輯工具開啟了可編程藥物時代
在2013年,科學家發明了CRISPR基因編輯技術,就賦予科學家這種空前精準的基因編輯能力。被稱為操控基因組的"分子手術刀", 也開起了可編程藥物的時代。可編程藥物是指一類生物學的基本元件(DNA或RNA)的藥物,相比于過去的依賴篩選的小分子藥物,更加依賴理性設計。
展望未來,這或許也預示着生物醫藥產業的新藥發現模式,将從比拼成功概率的數字遊戲,變成更為精準的理性設計。mRNA疫苗就是一個典型的例子。
(3)以合成生物學為代表的生物經濟全面崛起
過去十年間,合成生物學產業上遊有關基因測序、基因編輯和基因合成的使能技術的突破,推動了合成生物學新一波的產業浪潮,同時也積累了大量數據,為發展理性設計提供了可行性,生成式算法的發展也讓從頭全新設計成為可能,合成生物學擁抱各類人工智能已經成為必然趨勢。 AI+合成生物代謝工程,就是利用機器學習引導的高通量代謝功能成本更低、耗時更少,較傳統方法能提高產率,發現樣本空間中的全局最優解,可以大大提高研發效率。
在生命科學不同尺度上,一場轟轟烈烈的編解碼工程正在有序展開,例如,在基因組層面的各種基因檢測服務和基因療法,在蛋白質組學層面設計的各種人造蛋白質和抗體,在細胞層面的各類CAR-T免疫細胞療法和幹細胞療法。在組織器官層面,器官再生讓人體4S店的構想也初見曙光,腦科學計劃的發展也将幫助人類更好的開發腦機接口,并且讓腦腦接口成為可能,甚至讓腦腦接口成為可能。未來,高度發展的生物科技終将消滅疾病,進而實現人類的終極夢想:壽命的延長,同時合成生物技術将幫助化工產業實現綠色低碳更新。
四、生成未來:模型吃掉世界,智能體成為生產力
1.生成式AI帶來生產主體和價值分配革命
數十年來,代碼構成的軟體生态極大改變了世界的形态,代碼組成的軟體作為生產力工具,讓人類在各類工作的完成效率大幅提升。但個體產出的效率上限始終受到人類處理信息的帶寬上限制約,同時受制于培養一個相對成熟工作個體的成本。這些問題都不是單純的軟體效率工具能夠解決的。
對比互聯網時代,網絡基礎設施的構建提供了最高效的信息傳播渠道,因此,互聯網重新定義了所有與信息傳遞和傳播渠道相關的商業形态。在傳統商業形态中,加入比特降低信息傳遞的成本,新的商業模式得以成立,譬如:電商、社交、内容消費等等。
未來較長一段時間内,以模型為代表的計算新形态将提供最高效的有限智力生成成本,因此模型有望重塑所有與人工創作和智力決策的業态。在已有的業務形式中,加入詞元生成,更多復雜的勞動形式被算力替代。
不同于軟體作為生產力工具的形态,大模型的出現變革性地改變了軟體生态過往三十餘年的商業價值屬性。大模型本身具有生產力屬性。模型自身就在處理信息并給出對應的答案,這些工作可以在當前替代低階要求的人類工作,直接作為生產力環節上的一環。模型在商業決策、招聘人選判斷、新藥發現、美術作品交付、視頻内容生產等多個流程,直接表現出了替代人工的生產力屬性。在這些垂直領網域中,用戶得到的商業產品價值中,颠覆性地不再存在人工成本支出,或者說這一支出在迅速收窄。
昂貴的腦力勞動產物,正在出現重新定價的可能性。模型正在成為生產力。電力、算力是模型作為生產力工具的少數成本,當模型的智慧能力表現出更高的問題解決能力,我們将看到諸多商業形态因此發生改變,垂直行業的智力獲取成本大幅降低。
如果說計算的第一個時代是 PC 時代,計算的第二個時代是互聯網時代,計算的第三個時代就是 AI 時代。在每一個時代中,都有一個核心的技術突破和一個核心的經濟模式。在 PC 時代,技術突破是個人電腦,經濟模式是軟體許可證。在互聯網時代,技術突破是互聯網,經濟模式是廣告和訂閱。在 AI 時代,技術突破是生成式 AI 和 LLM,生成式 AI 作為一種新的經濟模式,它将創造的智力成本幾乎降低到零。同時,生成式 AI 也是開放多元去中心化的,任何人都可以訪問和使用,這意味着任何人都可以用 AI 來創造出高質量的内容,比如文本、影像、視頻、音樂等。這将極大地提高人類的創造力和效率。同時,這也将改變内容的價值和分配。因此,生成式 AI 将帶來一場生產主體和價值分配的革命。
2.生活形态革新 ——智能即服務
能源、算力、模型、應用是一個完整的智力產品。我們生活當中大部分任務和勞動都可以被這樣的智力產品來度量。這裡的應用可以是軟體工具,也可以是硬體機器人。提供優質數據來賺取智力貨币,在服務中消耗智力貨币。
在工作領網域,認知成本和創作成本将不再與人力成本密切相關,虛拟專家員工,編程、商業策劃、工程都可以直接鏈接到頂級的智力資源,永不停歇、收費極低、商業形态更加豐富。我們将能依賴各種各樣的頂級專家模型,完成高質量的生活、工作決策,降低我們認知的成本和決策的錯誤率。與此同時,我們也可在自己最擅長的領網域,貢獻出優質的數據集,自己的智慧以數據的形式被匯集到專家模型和應用的架構當中。
在生活場景,與機器人結合的具身智能產品将出現在諸多高柔性的服務場景,個人生活的AI助理會帶來更全面的數字化服務。在未來,人們可能擁有一組個人AI團隊,這些AI在我們的日常生活中扮演各種角色,使用生成模型的產品并不是依賴單一的大模型,而是多模型系統的協同作用。類似于公司服務于客戶的方式。對于復雜的問題,這些AI團隊可能需要聯系雲端的更大模型來求助。
3.互動界面更新 ——從理解到互動調配
智能的生產力革命可能帶來新的人機互動方式,過去基于觸屏的互動設計可能轉變為基于AI Agent對話的操作方式。從傳統流量入口的概念來看,不同的Agent可能成為不同垂直領網域解決問題的主要視窗,Agent不應當只具有傳統應用的操作功能,而是有能力在各個垂直領網域重新調配生產資料和生產力,更深度地耦合供給側與需求側。
我們正處于推理能力和互動界面雙重轉型的中心,将來的設備将不再是簡單的信息記錄工具,而是成為一種能夠全面理解用戶意圖和環境的智能系統。這種系統不僅要能捕捉到視覺和聽覺信息,還要能夠無縫地整合這些信息,以支持更加自然和高效的用戶互動。空間計算将成為繼桌面計算、移動計算之後的下一代計算平台。從 PC電腦的滑鼠、鍵盤的操控互動向智能手機應用的觸控互動,到未來集文本、語音和視覺于一體的AI夥伴,能夠實現實時理解世界并與之互動。理想的計算界面正在不斷演進,将數字信息和内容無縫地融入到用戶的物理空間中,提供更加沉浸式和互動式的體驗。
五、超級智能尚未到來,當下機會與路徑
1. 大模型≠好產品:從沙灘到用戶,從陽光到智能
"能源+算力+模型"是标準化的智力服務產品,就像"原料+烹饪+配送"是标準化的外賣服務品。标準化的智能產品,離不開強有力的模型,但并不意味着模型是最終AI世界的全部。
模型智能水平的馬太效應,決定着未來模型廠商的價值占比。OpenAI希望看到自己一家獨大,模型的智能水平遠超其他競争對手,因此為了更高的智能程度,各類服務商只能依托于唯一一家的模型服務。這種生态一旦形成,則會給模型公司帶來高額的利潤空間,但這種一家獨大的智能化程度是否真的存在,且短期内難以被其他公司跟進,在當前的模型競争中看到的更多是你追我趕的齊頭并進。
如果上述模型的馬太效應并不成立,模型廠商的競争格局則可能更接近雲服務廠商的形态。
從Scaling Law到優秀產品的路也在探索中。Open AI相信Scaling Law,在持續不斷擴充模型體量和訓練集大小,我們不斷看到更加智慧的模型作為其迭代的新產品。尺度模型在不斷更新着模型的智能水平,但真正能夠有适合用戶使用的AI產品可能并不完全取決于智能程度。沒有從模型的第一性原理回到產品的第一性原理,可能很難看到互聯網時代的大規模使用產品。OpenAI正在啟動ChatGPT的搜索引擎版本,這也可以看作模型能力正在被嘗試裝進一個優秀的產品框架。
2.超級模型基礎設施:算力,能源
正如Sam Altman所言,如果"智能"足夠便宜,我會讓AI幫我閱讀每一封郵件并給出建議。但如果"智能"非常昂貴,我們可能只會用AI來治療癌症。最好的技術都是"隐形"的,而只有成本的下降,才能使得"智能"在未來像空氣一樣随處可得,嵌入到我們工作生活的每個角落。算力和電力這一組合的供需關系,将會構成計算作為一種商品的實時價格依據。
(1)算力
數據與計算是 AI 的核心資源,它們共同構成了 AI 的基礎設施。模型的成本是 AI 的重要限制,它影響了 AI 的可用性和可持續性。在數字化表達世界模型的過程中,算力是推動創新和產生新價值的關鍵因素。它能夠處理龐大的數據集、開發復雜的智能算法,從而孵化出新的商業模式和經濟增長點。由于算力的價值屬性、通用性和稀缺性,算力作為一種新型的生產力,逐漸展現出其貨币屬性。
按照當前的模型參數體量估計,我們需要更多的算力設施來保障超級模型的訓練、推理,以确保這種智能作為一種廉價易得的生產要素,可以被廣泛應用在不同行業當中。這種算力設施既可能沿着當前的GPU架構演進,在摩爾定律的約束下達到極限,也有可能在未來幾年出現新的硬體架構方式,為我們降低算力成本而服務。
(2)能源
能源成本也是制約AI大規模應用的因素之一,ChatGPT當前的耗電量相當于美國1.7萬個家庭的總和,而當前GPT所服務的群體、處理的任務維度還遠低于超級模型的極限。廉價易得的能源仍然是人類邁向更高生產力層次的必要條件,關于能源革命的故事仍然會貫穿于智能化更新的前進路線中。
事實上,中美電力費用的差距正在影響中美大模型Token定價策略。模型推理的優化相對訓練更加容易、推理的算力要求不高、電力成本中國遠低于美國,這三點推理成本的差異使大模型的價格競争在中國市場成為可能,而不是發生在美國。如果單個token的計算是算力貨币的基礎形式,這種算力貨币的定價顯然仍存在"中美匯差"。
3.當下應用場景: 平衡模型能力和場景需求
AI 的發展是一個驅動力和反饋力之間的循環過程。驅動力是指 AI 的需求和潛力,它促使我們不斷地提高 AI 的性能和功能。反饋力是指 AI 的效果和價值,它促使我們不斷地增加 AI 的使用和應用。
新的應用,不一定要等到人工智能(AGI)的出現,現在已經能看到人工智能應用采用的開端。比如人工智能的基礎模型(如大型語言模型)可以降低創造的邊際成本,從而催生出新的行為和應用。
AI 的早期應用場景至關重要,某種程度上決定了 AI 的發展和創新。AI 的早期應用場景通常面臨着一個重要的問題,就是如何在創造力和正确性之間取舍。創造力是指 AI 能夠生成出新穎和有趣的内容,正确性是指 AI 能夠生成出準确和合理的内容。創造力和正确性之間的取舍取決于應用場景的目标和風險。如果應用場景的目标是為了娛樂或探索,那麼創造力可能更重要。如果應用場景的目标是為了解決或改善,那麼正确性可能更重要。如果應用場景的風險是較低或可控的,那麼創造力可能更可接受,因為它可以提供更多的嘗試和機會。如果應用場景的風險是較高或不可控的,那麼正确性可能更必要,因為它可以提供更多的保障和安全。目前九合重點關注當下能夠利用好生成式AI能力,拓展創造邊界的應用場景,如美術,遊戲,視頻生成,情感陪伴等領網域。
附錄:九合"計算+"代表被投企業
一流科技
一流科技創立于2017年1月,始終立足于通用性深度學習标準框架的研發和推廣使用,力争成為人工智能深度學習框架產品的引領者和事實工業标準。一流科技研發的分布式深度學習框架 OneFlow,首創了自動數據模型混合并行、靜态調度、去中心化和全鏈路異步流式執行四大核心技術,徹底解決了大數據、大模型、大計算所帶來的異構集群分布式擴展挑戰,技術水平世界領先。九合創投作為第一輪投資人,在2017年投資了一流科技。
彩雲科技
彩雲科技業務涵蓋天氣預報、機器翻譯和智能寫作,持續致力于發展具有高階認知能力的人工智能,提升人類感知環境、相互交流和與AI溝通的能力,并将之賦予全球用戶和開發者。公司基于大規模語言模型自主研發了AI創作工具"彩雲小夢",AI續寫的同時極大程度保留作者的創作空間,在中英文的語言邏輯和内容質量上都獲得了海内外用戶和算法評估的高度贊譽。
心影随形
AI 情感陪伴是一個公認具有想象力的 Killer APP 方向。心影随形選擇從遊戲陪伴和年輕人群切入,推出「逗逗遊戲夥伴」。遊戲是一個情緒濃度很高的半封閉情景,用戶情感抒發和獲得回應的需求未被滿足,是 AI 情感陪伴的最佳切口。「逗逗遊戲夥伴」獲得用戶授權的螢幕内容,用語言模型和CV理解内容,實現物理和心靈同頻。
賦之科技
賦之科技團隊成員在機器人行業深耕多年,擁有豐富的消費級機器人產品開發設計和產品化經驗,行業資源深厚。公司目前約75%為研發人員,在售的Enabot品牌產品遠銷海内外160多個國家和地區,全球用戶超過50萬,每日服務萬千家庭。公司堅持用戶第一,追求極致,以"做有溫度的科技企業,服務千萬家庭"為願景,致力于通過先進的機器人技術和產品幫助家庭管理,促進家人溝通,提升家庭幸福感。
行者AI
行者AI是國家高新技術企業,擁有60餘項發明專利、20餘項軟體著作權和SCI論文。秉承以AI技術賦能智慧文娛、智慧教育行業的願景,憑借核心團隊10年以上研發實力和行業經驗,推出行者AI數字文娛垂類大模型、AI+美術、AI+音樂、AI+智能體、AI+安全等產品與解決方案。產品已在文娛、教育、政務等場景應用,典型客戶包括掌趣科技、米哈遊、盛大遊戲、360遊戲、自貢文旅、成都博物館、四川省廣電、上海交大、成都七中、元氣森林等。
CreativeFitting
CreativeFitting(井英科技)位居國内AI視頻模型行業的前沿,創始人為美國上市連續成功創業者,擁有十餘年互聯網内容型產品運營和增長的經驗,從0到1成功構建并運營過千萬級内容平台。CreativeFitting致力于自研AI視頻模型生成高質量内容,從生成廣告短視頻到AI短劇,生成視頻的質量都達到行業領先級效果。2024年1月,公司發布了全球首款AI短劇應用,用戶觀看視頻時,還可以與劇中人物進行聊天互動,為用戶開啟了全新的想象力領網域。
Noetix Robotics
Noetix Robotics 是一家專注于人形機器人研發與制造的科技公司,于2023年9月成立于北京。公司核心創始人員來自于清華大學與中科院等多所知名院校。公司致力于通用人工智能本體、機器人仿生,以及具身作業系統等多個方向的研發,實現高力矩密度、高動态響應、高精度力控等特點。目前公司主要專注于下一代智能家庭人形機器人終端研發、生產與制造,聚焦于To B、To C端家庭、教育、養老等應用場景。
徕福機器人
徕福機器人成立于2023年,致力于成為全球領先的智能家庭服務機器人、定義未來家庭的智能生活新方式。徕福的技術聚焦于超強運動性能的輪足底盤,能夠上下樓梯、步态展示。首款產品主打3-12歲的兒童陪伴與家庭陪護,型态為多模态類人互動機器人,具備數字孿生監護、教育娛樂與生命日志等多種功能。
堯唐生物
堯唐生物是國内罕見的同時擁有工業級LNP能力和鹼基編輯器原研能力的團隊,目前公司首個體内基因編輯藥物管線已經完成毒理藥理研究,大動物試驗結果已初步顯示了YOLT-201的安全性和有效性,單次給藥的體内編輯效率做到了同類最優,具備best-in-class的潛力。堯唐生物已經于近期向國家藥監局遞交了YOLT-201的IND申報檔案,有望開啟中國首個基于mRNA-LNP遞送的體内基因編輯藥物的注冊臨床試驗。
諾視科技
諾視科技致力于研發商業化Micro-LED顯示芯片技術,在微顯示領網域為客戶提供最佳解決方案,擁有國内首個深度融合集成電路制造工藝和Micro-LED芯片工藝的團隊,公司以VSP技術突破微顯示領網域像素難以小型化的物理限制,打造高性能的微顯示芯片,以IDM模式從產品設計、研發、生產制造,到封裝測試實現完全自主可控。該技術方案不僅在芯片小型化、高亮度、低功耗方面有着極佳的表現,而且具有極高的量產可行性,有望成為Micro-LED產業化的終極方案。
一九象限
一九象限聚焦下一代移動計算平台AR芯片及解決方案開發和交付。產品覆蓋不同檔位的AR/MR應用場景,彌補XR領網域一體化高集成SoC短缺的空白。團隊全部來自國内頂級半導體設計公司,在行業持續近20年積累,具備豐富的從需求到量產全流程的先進半導體技術研發和量產交付能力。公司聚焦未來產品需求,通過多領網域底層核心技術的自研突破,持續提升芯片及解決方案競争力,幫助行業整機客戶快速提升產品競争力,成就客戶商業成功。
中科昊芯
中科昊芯是數字信号處理器領先企業,作為中國科學院科技成果轉化企業,公司在全球範圍内開創性的使用 RISC-V指令集進行數字信号處理器 DSP 的設計研發,解決了國内 DSP市場困擾多年的應用生态和知識產權難題。公司率先量產全球首款RISC-V DSP并推出 HX2000系列數字信号處理器產品,可廣泛應用于工業控制及電機驅動、光伏及儲能、新能源汽車、數字電源、消費電子、白色家電等眾多領網域,該系列十餘款芯片已流片,多款型号實現量產并批量供貨數百萬片。
微核芯
微核芯從事RISC-V高性能處理器芯片的研發和銷售,核心技術覆蓋高性能處理器芯片的系統架構設計、物理設計、先進工藝、基礎軟體等主要領網域,是當前國内少有的具備伺服器級高性能RISC-V處理器完整研發能力的企業,已與多家互聯網頭部企業在數據中心伺服器領網域開展正式的商業合作。公司創始人是中科院計算所龍芯團隊的核心創始成員,在高性能處理器領網域擁有超過20年研發、量產和市場推廣經驗。
芯算科技
芯算科技成立于2023年9月,是國内外光子計算領軍者,致力于打造下一代更快更強的新型智能計算基礎設施。全球首創高維光學神經網絡架構,核心技術絕對自主可控,以光子計算為抓手,推進光計算和光通信的有效融合,做全面自主的光芯片。公司的一代產品預計于24年Q3發布,擁有光計算行業最強的性能指标,貫穿全場景AI智能計算應用。