智能駕駛的又一變革節點：大模型之戰後，誰能做出中國版Sora？

今天小編分享的汽車經驗：智能駕駛的又一變革節點：大模型之戰後，誰能做出中國版Sora？，歡迎閱讀。

Sora 火了。OpenAI 公布了一組由 Sora 生成的 Demo 視頻，其效果之逼真，細節之豐富，還是在互聯網世界引發了巨浪。這也意味着，一句簡單的提示詞，就能夠生成以往可能需要一個專業團隊才能制作的視頻。

從最近爆火的李一舟的 AI 課再到各路 " 普通人用 Sora 賺錢的 10 種辦法 ""99.9 元給自己的未來一個機會 " 等等，哪怕目前 Sora 只發布了多個演示視頻和技術指導，絕大多數人至今都沒用上這款前沿應用，但也阻擋不了大家對人工智能改造影像世界的期待。

2023 年初，在 OpenAI 發布 ChatGPT 将近兩個月之後，百度很快推出了中國第一款生成式人工智能大模型，随後，各路廠商紛紛入局，整個 2023 年成為生成式 AI 元年，沉寂已久的中國 AI 戰場掀起了一場百模大戰。

一年之後，OpenAI 再度放出一記王炸。這一次，中國市場反應最快的是 360 集團的周鴻祎，不過，他只是暫時在視頻号上表達了他的震撼：" 一旦人工智能接上攝像頭……對世界的理解将遠遠超過文字學習。比如人在駕駛汽車的時候，很多判斷是基于對這個世界的理解。比如對方的速度怎麼樣，能否發生碰撞，碰撞嚴重性如何，如果沒有對世界的理解就很難做出一個真正的無人駕駛。"

周鴻祎說，這次 Sora 只是小試牛刀，它展現的不僅僅是一個視頻制作的能力，" 它展現的是大模型對真實世界有了理解和模拟之後，會帶來新的成果和突破。" 當然不用周鴻祎多說，但凡是看了 Sora 視頻的人，都會相信，一個新的時代要來了。因為這意味着 AI 對于人類世界的理解更進了一步。如果說 ChatGPT 是紙質地圖的話，Sora 能夠實現的，就是全息影像導航了。

Sora 技術是由 OpenAI 開發的一種基于分布式訓練的 AI 模型訓練框架。ChatGPT 是單一模态語言模型的典型代表。大語言模型是借助 Token Embedding 思路，在大量文本數據基礎上将人類語言解碼生成機器語言，随後通過結構化的深度學習之後，重新計算組合，并翻譯成人類可以理解的語言，而 Sora 則是标準意義上的多模态大模型代表。

它允許研究者和開發者在多個節點上并行訓練 AI 模型，将 AI 模型的訓練任務拆抽成多個子任務，并在多個節點上并行執行。從 OpenAI Sora 官方公布的論文來看，其原理事實上就是在以往文字、圖片的基礎上進一步增加多維度的計算任務。這也意味着對更高性能的芯片和更龐大的算力提出更嚴苛且昂貴的要求。

同樣以 AI 應用最為廣泛的自動駕駛場景為例，以前的 AI 可能只能理解數據庫中的導航數據并做出決策；但這一次，Sora 意味着，人工智能對于影像的理解正在出現一次根本性的飛躍——它不再需要把影像翻譯成文字或者數據，它已經能夠充分理解影像的意義。這也讓 L4 級的自動駕駛技術落地增加了新的可能。

但一個關鍵問題也随之誕生：這一次，中國版本的 Sora，或者說中國市場上第一個有能力做文生視頻的公司，會是誰？

從去年百模大戰的表現來看，從研發實力到數據量和應用場景來看，最具有可能性的應該是如下這五家。

百度

作為文生文時代大模型的一号位，百度當然必須在這一排名中擁有位置。

大模型巨浪滔天，早已在 2019 年就已布局大模型技術的百度，順勢在 2023 年占據 C 位，回顧整個 2023 年，百度所有重點工作、内部的系列變革，都是圍繞 AI 這個關鍵詞進行的。文心一言的推出，也讓百度在 2023 年隐隐有重回互聯網一線大廠的趨勢。

其實算起來，百度的 AI 布局，在中國互聯網大廠中無疑算是較早的那一撥。從 2013 年布局深度學習技術算起，百度進軍 AI 剛好 10 個年頭。其間在陸奇執掌百度時，還提出過 "all in AI" 的重大戰略調整。

而且，百度本身算得上是擁有 AI 的基因。搜索業務意味着大量數據沉澱，使得這一類公司天然地具有投入 AI 的優勢。從目前全球範圍來看，唯一能夠與 OpenAI 叫板的，也就只有谷歌的 Gemini 了。

更為重要的是，百度其實也擁有 AI 的一個關鍵應用場景——自動駕駛。百度自 2013 年就投入自動駕駛研發，2015 年起正式成立 L4 事業部以來，每年的研發投入就不低于 100 億。近期有機構就認為，Sora 的成功以及其背後展現出的湧現能力可能為計算機視覺領網域的研究提供了一個明确的方向，成為未來視頻與模拟領網域（例如自動駕駛）的統一範式。

而目前在一眾互聯網公司中，在自動駕駛領網域耕耘最久的，就是百度。

此外，百度的決心顯得更為強烈。與騰訊、阿裡、字節、快手等公司更多将 AIGC 作為一個創新業務來看待不同，百度明确要求，全公司各個業務條線都嘗試用 AI 進行重構。

在 2023 年的百度世界大會上，李彥宏 " 手把手教你做 AI 原生應用 "，發布文心大模型 4.0、講解大模型四大核心能力、展示十餘款百度的 AI 原生應用，這些成果背後是百度在人工智能領網域十年的積累。

無論是從李彥宏的态度還是從百度的能力禀賦來看，百度應該是最具有可能性推出文生視頻的那一批。

字節

近期另一家傳出可能性的，是字節跳動。

2 月 20 日有消息稱，在 Sora 引爆 " 文生視頻 " 賽道前，字節跳動也推出了一款創新性視頻模型 Boximator。與 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通過文本精準控制生成視頻中人物或物體的動作。

不過，字節跳動方面否認了其會是 " 中國版 Sora"。據字節方面稱，Boximator 是視頻生成領網域控制對象運動的技術方法研究項目，目前還無法作為完善的產品落地，距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。

但即便如此，字節跳動背後的抖音和 tiktok，卻是被認為最先可能受到 Sora 衝擊的市場應用。一篇報道稱，多位業内人士指出，以目前 Sora 生成視頻的長度來看，它的到來最先會衝擊到短視頻領網域。一旦大範圍推廣，Sora 将大大降低短視頻創作門檻，豐富短視頻平台的内容供給，但随之而來的問題是，AI 生成内容的增多可能會影響平台的内容生态，同時 Sora 還會和剪映、快影等工具搶奪用戶。

如今我們回過頭再看年前的一則消息，會感受到字節跳動内部的 AI 焦慮。

2 月 7 日，抖音集團 CEO 張楠宣布自己已經辭去集團 CEO 一職，未來将把精力聚焦在剪映的發展上。當時引發市場譁然，畢竟，作為抖音的一個延伸工具產品，剪映的體量和規模，和抖音完全不在一個量級上。張楠的工作出現這種變化，難道是字節内部組織發生大的變化？

事實證明，張一鳴是有遠見的。張楠的是帶領抖音一步步走向成功的關鍵戰将。而如今，字節跳動的最大戰場，正在于 AI。

而從這個角度來說，剪映大概率是字節内部判斷的最有可能把 AI 應用跑出來的產品。

阿裡

在全球第四的阿裡雲加持下，阿裡無論是從高端智能芯片的擁有量還是從算法、數據來看，阿裡的能力毋庸諱言。在去年百度推出文心一言之後，很快阿裡就推出了通義千問，且表現出色。

而很多人沒有注意到的是，在今年 1 月中下旬，通義千問最新更新的視覺語言大模型 Qwen-VL-Max 正式發布，這款大模型在多個測評基準上取得了好成績，并實現了強大的影像理解的能力。

在 Qwen-VL-Plus 發布後，國内也有人拿 Gemini 演示視頻裡的問題對它進行了測試，發現所有問題 Qwen-VL-Plus 完全都能回答上來。也就是說，在圖片和視頻的影響理解上，阿裡的通義千問是具備一定的競争力的。

事實上，通義千問的視覺理解大模型已經經歷了幾輪迭代。早在去年 8 月，阿裡就放出了 Qwen-VL 模型的第一個版本，并很快對通義千問進行了更新。Qwen-VL 支持以影像、文本作為輸入，并以文本、影像、檢測框作為輸出，讓大模型真正具備了「看」世界的能力。

但從理解圖片和視頻，到生成圖片和視頻，中間依然還存在巨大的鴻溝需要跨越。

附上最近通義千問的一個小八卦。2 月 22 日，一張阿裡雲通義千問研究員的工作日程在網上流出，顯示該員工從早上九點起開始忙碌至晚上十點，随後又在凌晨叫醒同事讨論新想法。網傳圖片顯示的作息規律與流出的 Sora 一線研究員高度相似。因此，業界傳言阿裡雲通義千問效仿 Sora 一線員工作息，強化工作強度。

盡管對于這一問題阿裡雲方面很快辟謠稱，" 假的，絕對不可能有這樣的事。" 但由此也可見，通義千問一定存在着對标中國版 Sora 的壓力。

騰訊

其實，在列完前三個之後，再列第四和第五，已經是一件相對比較困難的事情。一方面，中國存在一批能力不錯的獨立 AI 廠商比如王小川的百川智能、張鵬的智譜 AI 等，加上還有曾經的 AI 四小龍商湯、雲從等，因此，後面的排名其實更多是供參考。

但是之所以把文生文大模型才發布沒多久的騰訊列在這個位置，主要還是考慮到一個問題：具有 AI 的研發能力和具有 AI 的落地應用能力，是兩碼事。而騰訊的最大優勢就在于，極為豐富的應用場景和海量的數據；更為重要的是，作為中國互聯網公司塔尖上的廠商，騰訊的視頻、影業同樣是其業務的重要組成板塊，其大力布局 AI 只是時間問題。

最新的消息是，2 月 22 日，騰訊會議上線了基于混元大模型的 AI 小助手。根據官網介紹，騰訊會議 AI 小助手可以覆蓋會議全流程，通過簡單自然的指令，完成信息提取、内容分析、智能提醒等多種復雜任務，提升開會和信息流轉效率。

騰訊會議的體量如何，只要是在寫字樓打過工的人應該都有體會。而騰訊所擁有的這種覆蓋量能力，是前面三者都可能很難以企及的。

而且能夠明顯看出，騰訊的 AI 戰略和其他廠商不同——它有自己的節奏。相比去年上半年百模大戰一擁而上，騰訊直到三季度才姗姗來遲地發布了混元大模型。而且在财報電話會上，馬化騰對于 AI 的發展戰略也呈現出不願意湊熱鬧的态度。

事實上，在 2023 年，AI 也遠沒有看到產生大規模商業化回報的可能性。技術還在探索之中，而擅長技術落地應用的騰訊，應該還在等待一個關鍵時機。只是，這個時機是否是 Sora，還是個未知數。

科大訊飛

如果說前面列的四個更多是傳統互聯網巨頭，那麼作為一個需要海量資金投入的行業，國家隊也必須擁有姓名。能夠作為國家隊代表的，應該就是科大訊飛了。

早在 2011 年，訊飛便承建了語音及語言信息處理國家工程實驗室，提出讓機器像人一樣能聽會說；2014 年，訊飛推出 " 訊飛超腦計劃 "，提出讓機器像人一樣能理解會思考，2022 年又将其更新為 " 訊飛超腦 2030 計劃 "。算力方面，科大訊飛還聯手華為，讓大模型建立在安全可控的國產算力平台之上；訊飛開放平台目前已開放 560 項 AI 能力，并聚集超過 500 萬生态合作夥伴。

但科大訊飛之所以會被列在這一可能性名單中還有很重要的一個原因是，科大訊飛在過去的語音識别領網域，确實積累了豐富的經驗。原研技術固然很重要，但數據的訓練、應用場景的迭代同樣不可或缺。

從科大訊飛過往的優勢業務來看，在教育方面，訊飛星火認知大模型 +AI 學習機讓 AI 像老師一樣批改作文；辦公方面，大模型 + 訊飛聽見，能夠實現錄音一鍵成稿，一分鍾輸出流暢會議文案，大模型 + 智能辦公本能夠根據手寫要點自動生成會議紀要。這些場景的積累加上背後來自國家隊的人才和資金以及算力的支持，使得科大訊飛應該是有能力掌握進入文生視頻領網域的一張門票。

不過，相比去年 ChatGPT 發布之後，中國科技廠商随即紛紛摩拳擦掌要大幹一場，2024 年由 Sora 所引發的新浪潮，這一次似乎沒有去年那麼大的動靜。這一次有可能是大家都變得更謹慎，但更大的原因我相信是，相比 ChatGPT，Sora 的門檻大大提高了。

由此也可見，生成式 AI 的全球競争，正在駛入拉開關鍵差距的深水區。

推薦閱讀