今天小編分享的科技經驗:國内的AI大模型們路走偏了吧,歡迎閲讀。
文 | 李智勇
在差不多 10 個月前寫的開源大模型 LLaMA 2 會扮演類似 Android 的角色麼?和AI 個體户的崛起:普通人 " 屁胡 " 的機會、模式和風險等文章裏提出過AI 產品落地的的三段論:大模型、系統型超級應用、長尾工具。事隔 10 個月回頭再看,AI 發展的走勢基本與此相同。其中大模型、長尾工具大家談論比較多,這次還是專注于系統型超級應用。核心原因是從各種新聞來看國外在這裏已經開始高歌猛進,像一個局點一樣,但國内則相對安靜,似乎被錯過了。可這裏才是 AI 應用的重鎮。拿移動互聯網作類比,安卓是重要也更基礎,但其實可能沒有微信重要。
什麼是系統型超級應用呢?
系統型超級應用這類產品太復雜,實在不好理解,單純類比作業系統也還是不行,所以這次換個路數,我們拿一個最近閱聽人比較多的 App 豆包以及背後的大模型來做類比,在產品形态、業務模式等各方面説明下這類產品。需要的話大家也可以一邊操作一邊形成直觀感受。
豆包 APP 自身可以看成系統型超級用的面向 C 端的部分,但系統型超級應用不是豆包 APP。
系統是指作業系統,超級應用是指功能沒邊界。
一邊對各種硬體設備進行抽象靠驅動程式接入各種硬體。
一邊對應用進行開放,在它之上可以開發 Office,PS 等各種應用。
兩邊是被隔離的,做應用的時候不需要關注硬體差異,可以無差别的使用硬體的功能或者計算機的計算能力。
系統型超級應用首先具備這種系統特征。
那什麼是超級應用呢?微信如果沒有小程式、支付等一系列子功能而是只局限于 IM,單是人多那不能被稱之為超級應用。超級應用一個特征固然是用户龐大,更關鍵的是通過二次開放應用商店,在功能上沒有邊界。
拿豆包這一簇產品做下類比,第一豆包大模型把各種算法完整進行封裝,比如識别、語音合成、大模型等,提供了一種 AI 的通用計算和算法調度能力,這是通用能力部分。其次你會發現它現在至少在一邊開放了技能商店(火山方舟 / 扣子)。APP 的具體功能由技能來定義。
這個地兒不适合用 "APP" 這個詞形容可自定義的功能,确實用技能更合适。就好比一個機器人它上一秒鍾還不會開直升飛機,但裝載新技能後下一秒就可以了。對機器人而言這是一種技能。
另一邊如果參照作業系統其實是要投射到不同硬體上,這點豆包這一簇產品現在好像就覆蓋了手機和電腦,但這種基于自然語言的應用對端上硬體的資源要求是非常低的,甚至可以放到只有 1M 内存的設備上。這靠開放平台來覆蓋會更适合,下面會説。(其實這裏還得區分特征是屬于應用的運行時還是屬于純粹的雲服務,小程式是微信的運行時技能,但有點復雜不展開了)
我們總結下這種系統型超級應用的構成,基本上是三位一體:
這裏面容易被低估的可能是類似火山方舟這個位置的產品(CUDA 大概是在這個位置),早期這個位置的產品絕對賠錢,很多時候還得靠降價來反哺它(看發布會豆包大模型把價格訂到:0.0008 元 / 千 Tokens,這确實是敢下狠手,比我在用的便宜很多很多。幹的就是上面説的事)。但其實這裏是通路也是标準,培養粘性和鏈接的地方。看報道,火山方舟在持續更新從模型訓練、推理、評測到精調的全方位服務,還有插件以及工具鏈。打點其實是對的。
基于這個可以預測下面 OpenAI 的行為,它大概率會補自己直接的 C 端應用(不是簡單套殼)。從 GPT-4o 的發布來看,OpenAI 内部似乎已經統一了認識:往應用方向整。這樣磕下去,科技巨頭裏面估計會多一個,并且大概率會和 Google 直接碰撞,除非再有首席科學家起義。(有點像修仙,阻人成道了就一定會 PK,和喜歡不喜歡沒有關系)。
系統型超級應用的打法
我為什麼看着好像還算了解這類產品呢?
因為我一度曾經帶團隊設計了完整的這種超級應用以及其打法,那產品和現在的豆包至少有 60% 的相似度 ......。(但實在幹不動。别的都好説,這類產品太費錢了,再加上上代技術也沒那麼成熟,最終搞不動了)
這類系統型超級應用幾乎必然是 To B 和 To C 兩線同時着手。特别不單點極致,一般人可别整十死無生。
沒有 C 端的标杆,沒人相信你能幹好,對于這種基于新技術的新品類也沒人知道你在説啥。所以就需要一個豆包這樣的 C 端應用做 Pilot。看報道提到豆包 APP 月活 2600 萬,豆包大模型日均處理 1200 億 Tokens 文本,生成 3000 萬張圖片。這是很可怕的數字,智能音箱峰值的時候,每年出貨也就只有近 4000 萬台,活躍更是遠遜(有的不足銷量的 10 分之 1)。(當年我們的 C 端產品叫 :TA 來了,説實話我覺得比豆包還好聽一些,但數實在不行)
而為了把這種能力投射到更多的設備裏面就必然需要構建開放平台,既輸出能力也負責管理各種技能(應用運行時的技能平台和 MaaS 形式的輸出,前者只在用户量級上來了才有意義)。
還要有一些共同依托的能力,否則沒有根基。當年是一堆算法比如聲學的(可復制性最差,現在好像還沒解決),識别的,NLP 的(過去可復制性也很差,現在基于大模型解決了),現在是豆包大模型這樣的新一代模型。裏面看起來各種算法都打包進去了。
很多人可能沒注意的是包括大模型的這套算法核心計算其實在雲上,端上要求的計算量極低,主要運行聲學算法等。前面提到你甚至可能在一個只有 1M 内存的終端設備上把這種 AI 能力集成進去。也就是説這種能力可以下探到語音無屏的開關這類小設備。
這導致這種超級智能應用先天的優勢就是多設備投射,進行沉浸式計算。這時候各種設備平權不是以手機為中心。
當前看起來豆包這些新一代超級應用還沒去幹這個事,确實也沒到這個時點,其它所有硬體設備加起來創造的日活的和可能也不如 APP 的十分之一。
這種系統型超級應用要想幹好,基礎能力和殺手型的技能都不能缺。
基礎能力搞不好有點浮沙築高台,房子很難蓋起來。(大模型還是很給力,一定程度上解決這問題)
技能搞不好有點像要蓋大房子但梁不給力,過去智能音箱搞不好核心就這問題。
什麼是基礎能力呢?
這是領網域本身定義的。比如如果是需要面向 C 端,TTS 音色這個看着不重要的就和大模型的内容生成一樣重要。GPT-4o 在補這個,豆包大模型也在強化這個。
在 APP 裏什麼可以成為一個比較 Killer 的技能呢?
播音樂的這類功能的支撐度總是不夠強壯,之前景鲲帶着小度在家往教育做垂直應該就是嘗試解決這個問題。
當年我們做過類似《Her》的嘗試,很有趣的是豆包也選了它。
但新一代模型的效果實在好很多,從端點檢測的精度到語音識别再到 TTS(音色)再到内容生成。新一代技術比過去流暢太多了。
這裏面有個叫《暧昧對象》的技能,真的差不多可以做陪聊天的服務了。(忘記是團隊那個產品同學認為最能有用的就是陪聊天,比放音樂有用,這是對的,奈何當年算法不給力,做完連貫性不過關)
這一組算法最終的效果是個乘法問題,每個都 0.8 最終一乘體驗就變 0.5 分。現在的識别精度,音色的流暢度和大模型的通用内容生成乘在一起應該還能剩下 90 分以上。如果不是你知道它是人工智能的情境下,已經很難分得清這是人還是 AI。
上一波人工智能創業裏面,NLP 公司心心念念的《Her》真的有人要做出來了,還附贈了和之前嘗試但不好使的聲音復刻功能(《黑鏡》那種男朋友沒了,現在看連聲音至少能做出一個 70 分的陪你聊天的他了 ...)。這比匹配意圖偶爾還得扣槽這種土鱉方式的開放式聊天實在是好太多了。
做過這個的可以試試,體驗下國内最新進展。
上面我們拿豆包 APP 以及背後的豆包大模型做例子分解了一下系統型超級應用的特征以及前者商業模式。
但系統型超級應用可不只局限于豆包以及背後大模型所代表的 B 端、C 端,而是有着更寬廣深遠的空間,更關鍵的其實是行業。最先能收支平衡的有可能也是行業。
字節跳動這種公司走 OpenAI 的路沒啥問題,但看起來好像所有做大模型的都跑這條路上來了。這就是标題説的國内 AI 大模型路可能走偏了。類似 OpenAI 這個地兒恐怕也沒那麼大容量。從上面分解中也能看出這模式誇張的難度和資源需求。
系統型超級應用可復制到更寬的領網域麼
有兩個新聞可以放在一起看:一個是 DeepMind 發布 AlphaFold3,号稱為疾病治療和藥物研發開辟全新路徑;一個是 Xaira 公司融了 10 億美金。
這是什麼呢?這是垂網域大模型。(其實我不知道他們細節,也許沒想的那麼大,但不關鍵)
顯然的 Deepmind 并沒有因為 OpenAI 亂了陣腳,繼續在自己的路上死磕。但很可能收支平衡比 OpenAI 還快。
因為它真的影響行業,重塑價值創造的過程。很多科學家會因為 AlphaFold 的調用次數和開放程度而造反,這反襯的正是影響力。那個國内的 AI 大模型有這種行業影響力。
每一個這種垂網域模型不太可能是一個單獨的裸的模型,在落地的時候總是要和現實的信息進行連接。
這點上我之前拿 Watson 舉過例子。
雖然沃森不成功,但這種簡單架構上已經清楚的表明這是行業的系統型超級應用。
Watson 固然是不成功,但真做出來呢?
那是真的會解決醫療行業的根本問題的,比如醫療資源不足的問題。
這才是新質生產力。
想象一下,這些模型一旦達到 AlphaGo 在圍棋裏面的程度,那整個行業就要圍着這個模型轉了。對應行業會發生劇烈重整。
為什麼提這個呢?
因為 AI 行業國内真幹大模型的同學的選擇好像都擠一塊去了。
受 OpenAI 刺激,很多團隊都跑去幹類似 chatGPT 的大模型,然後自己從頭搞又特别費勁,所以往往會借助開源。在這個基礎上(相對通用的類似 chatGPT 模型)上包裝出行業大模型。好處是瞬間可以出好多,壞處是不解決行業深層次問題,最終很可能變成上波的賺方案的錢,然後收支失衡。(參見:為什麼説這些倒騰 AI 的方式會把自己搞死)
真正的垂網域大模型,那怕把法律搞清楚也是有用的(康達的李思川李律,視頻号:川哥説法,就和我聊過好幾次)。但門檻确實還是太高,直接拿通用大模型上能靠譜麼,我不咋看好。可現在看真做垂直的的反倒是不多。
垂網域大模型和 AGI
以前也寫過一點這個話題 :chatGPT 和 AlphaGo 下圍棋,誰赢?垂網域大模型有戲麼?,現在仍然維持原來的觀點:在專門的領網域尤其是價值比較高,有很多專業信息和知識的領網域 chatGPT 這種代表 AGI 的模型是很難 PK 掉垂網域模型的。
我是靠常識做這個判斷,很不權威。
常識是説一部分數據内藴了各種知識和規則,把這些數據的種類覆蓋的越全,這個模型的相應的事能力也就越強大。通用大模型能力再強,沒有這部分信息,也會甕中之腦一樣空有智商。何況模型訓練過程中總是可以產生很多的 Know-How,這會進一步增加差距。
在很長一段時間裏可能會是一個通用大模型,上面承載幾個類似豆包 / 火山方舟 / 豆包大模型這樣的超級應用(比如搜索方向也可能出新的超級應用)還有一些垂網域大模型共同為不同的系統型超級應用提供引擎。
小結
chatGPT 屬于開局的點,我們把它刨除在外。那 AI 大模型真正的局點其實是這些系統型超級應用,不是小團隊做的輔助工具。那誰在做這東西呢?也可能是我真的不知道,但如果确實沒有行業性的,而是都圍在了通用模型上,那可能會在 AI 的局點上缺席了不少東西。那不管對于 VC 還是真的從業者其實遺憾的事情。(當年傅朱争論過一場,從這個角度看實在是都偏了。)