Sora終于來了，但多模态AI呼喚實用主義

今天小編分享的科技經驗：Sora終于來了，但多模态AI呼喚實用主義，歡迎閱讀。

Sora 的現實問題

随着 ChatGPT 等大語言模型的問世，人工智能進入了一個全新的時代。在這股浪潮中，多模态 AI 技術成為業界競相追逐的目标，OpenAI 的 Sora 更是将這股熱情推向高潮。

等待了 299 天之後，屢次跳票的 Sora 終于來了，OpenAI 在北京時間 12 月 10 日凌晨正式發布了全新視頻生成模型 Sora Turbo。

然而，從實測的效果來看，Sora 的效果并沒有帶來太多驚喜，無論是在視頻時長、生成效果一致性、還是指令遵循方面，都沒有明顯強于市面上的已有視頻模型。

事實上，Sam Altman 将 Sora 比作視頻版 GPT-1 的說法其實暴露了這個項目的尴尬處境。因為 GPT-1 更像是一種實驗性模型，不太适合作為直接可用的生產工具，它主要被用作科研領網域的參考。

在投入大量資源和時間後，Sora 如果呈現的只是一個概念驗證級别的產品，如果真如 GPT-1 一般需要經過多次迭代以及技術突破才能達到實用水平，那麼考慮到視頻生成所需的巨大算力投入和數據需求，這種戰略選擇的成本效益比恐怕令人擔憂。

一邊用誇張的宣傳和神秘感制造期待，一邊交出的卻是一個并沒有多少突破性進展的產品。特别是在 2024 年末這個時間點，當國内外競争對手已經通過快速迭代實現了類似水平的效果，這種 " 落差 " 的表現略顯尴尬。

不可否認，Sora 的發布代表了多模态 AI 技術的重要裡程碑。它展現了一個 " 會預測未來 " 的 AI 系統的雛形，讓人們對通用人工智能 ( AGI ) 的到來充滿期待。只不過，這次 OpenAI 已經不再将 Sora 稱為 " 世界模拟器 " 了。

關于 Sora 的技術局限性的争論由來已久，例如，Sora 在生成視頻時常出現邏輯錯誤，如物體運動不符合物理規律、因果關系混亂等問題，現在的 Sora Turbo 顯然也沒有解決這一問題。早在年初，Meta 首席科學家楊立昆就直言，Sora 的生成式技術路線 " 注定失敗 "，因為其依賴于大規模數據訓練的概率模型，無法真正理解物理世界的因果關系。此外，Sora 的生成過程更多是對已有數據的拟合，而非創造新知識，這使其在模拟真實世界方面仍有很長的路要走。

夢想總歸要回到現實，除了技術成熟度，Sora 在產業化方面還存在諸多挑戰：

首先，Sora 的訓練和應用成本極其高昂。據 Factorial Funds 估算，如果 Sora 要大規模應用，還需要約 72 萬片英偉達 H100 GPU 的支持，這意味着 216 億美元的硬體投入。如此天價的算力消耗，讓 Sora 很難在短期内實現商業閉環。

其次，Sora 在落地場景方面尚不成熟。盡管 Sora 已經正式發布，但在效果上離真正的 " 世界模拟器 " 差距甚遠，現階段更像是一個玩具而無法成為一個真正實用的創意工具。可以說，Sora 離真正的 "iPhone 時刻 " 還有相當長的路要走。

就像上世紀 60 年代的核聚變發電：展示出令人震撼的潛力，吸引了大量投資和頂尖人才，但随着研究深入，技術難度和資源投入卻呈指數級增長。雖然每隔幾年就有突破性進展的報告，但要實現真正可控、穩定的商業應用，始終像隔着 " 永遠差 30 年 " 的距離。

所以，如今的 Sora 面臨這樣一個困境：在完美的演示視頻背後，是否存在不可逾越的技術瓶頸？這種追求完美視頻生成的路徑，會不會最終被證明是一個代價高昂的技術死胡同？要将實驗室的演示轉化為真正有價值的應用，可能比我們想象的要困難得多。

對此，百度創始人李彥宏在最近接受采訪時曾表示：" 如果真的能夠做到任意場景下視頻生成，那可能要很長很長時間，而且成本很高。"由此可見，百度并非不重視 Sora 所代表的技術方向。只是基于務實的判斷，選擇了另一條路線。

" 應用驅動 " 成為第一性原理

與許多廠商專注于打造 Sora 這樣的通用文生視頻模型不同，百度智能雲的着眼點在于幫助客戶實現多模态應用的落地。正如李彥宏所言，" 我們更關心怎麼幫用戶把應用跑起來 "。事實上，在眾多行業客戶的實際場景裡，他們真正需要的是在自己的應用中擁有可靠的多模态能力，而不僅僅是一個裸的通用模型。百度智能雲深谙此道，通過多年來在多模态領網域的深厚積累和大量工程化實踐，以更簡單快捷、低門檻的方式賦能客戶，讓多模态應用能夠開花。這也是百度暫不直接做 Sora，而是聚焦應用落地的重要原因。

不做 Sora，并不意味着百度在多模态 AI 領網域缺席。恰恰相反，百度一直在多模态領網域有着長期而深厚的積累，只是選擇了一條應用驅動的路線。

随着當前大模型性能增長遇到瓶頸，AI 正在進入 " 冷靜期 "。海外 AI 巨頭從追求 AGI 轉向務實路線，OpenAI 嘗試轉向盈利性商業化運營，谷歌、微軟等紛紛聚焦商業變現和產業應用，重點發展 To C 業務、企業服務和開發者生态。

正如歷史上的典型的技術周期：高期望→泡沫→冷靜期→務實應用。行業需要從 " 技術優先 " 的邏輯切換到 " 應用優先 " 的軌道，通過實踐中反饋的需求和問題為技術發展指明方向。

那麼，什麼是 " 應用驅動 "？簡而言之，就是從真實應用場景出發，梳理 AI 落地的關鍵問題，并聚焦資源予以解決，最終讓技術產生實際價值。這有别于動辄 " 颠覆性創新 "、追求酷炫 Demo 的做法。在李彥宏看來，" 我更多希望盡早接觸場景及接觸應用，看在這個過程當中，到底遇到了什麼問題，把這些問題帶回來，我們綜合一下，看大家遇到的最多的問題，就是我們優先解決的問題。"

這種理念，與當年雲計算之于互聯網的關系有着異曲同工之妙。回溯歷史，正是得益于雲計算平台在基礎設施層面的支撐，互聯網企業才能将更多的精力聚焦在業務創新上，加速用戶需求與技術能力的迭代融合，最終催生出一個繁榮的應用生态。

如今，百度智能雲正是希望在多模态 AI 領網域扮演這樣一個 " 助推器 " 的角色。通過在算力、平台、安全等多個維度提供支持，讓更多的企業和開發者無需在復雜的模型訓練、部署、應用開發上 " 翻山越嶺 "，而是專注于挖掘行業需求、打造可用的智能化應用，讓多模态 AI 從實驗原型逐步發展為日常工具。

站在這個思路上審視多模态 AI，就不難理解百度智能雲的戰略選擇。在多模态 AI 落地的過程中，有兩大關鍵挑戰亟待攻克：一是實現更自然的人機互動，二是提高模型的可控性、盡可能消除幻覺。單純的視頻生成模型雖然看上去很酷，但還難以很好地解決這兩大問題。反而是在一些垂直領網域，用更簡單實在的多模态技術，就能讓 AI 先跑起來。

比如在工業質檢領網域，結合影像識别和文本描述的多模态系統已經能準确找出產品瑕疵并生成詳細的檢測報告；又如在醫療影像診斷中，将 X 光片、CT 等影像與病歷文本結合分析的方案，已經在多家醫院實現規模化應用。這些看似日常的應用，才是 AI 真正創造價值的開始。

這正是百度多年來在多模态 AI 領網域的投入方向。李彥宏強調，" 外界有一種誤解就是百度不做 Sora，就等于是百度不做多模态。我們非常非常看好多模态，我們也在多模态上有非常長期的多年投入，在真正有應用場景的地方，我們的多模态能力是非常強的。"

多模态 AI 的 " 地基 "

多模态 AI 的門檻高、難度大，這是業界公認的痛點。各類模态數據的處理、模型訓練的調優、推理服務的部署，每一個環節都需要大量的專業知識和工程經驗。這無疑阻礙了多模态 AI 在更廣泛行業中的應用。百度智能雲是如何支撐多模态技術大規模落地的？

在模型訓練層面，百度智能雲的百舸計算平台實現了主流多模态大模型的全覆蓋，除了支持 MLLM、CogvIm2、Qwen2-VL 等業界領先的多模态模型，還針對多模态訓練的特點提供了一系列優化方案。其中，" 多芯混訓 " 可以兼容英偉達、昆侖等多種芯片，充分發揮芯片的異構性能，并能在萬卡規模下将兩種芯片混合訓練下的效率折損控制在 5% 以内；" 長上下文訓練 " 則突破了序列長度的瓶頸，為多模态模型拓展了更廣闊的應用空間；" 大集群高效訓練 " 的并行策略，進一步提高了多模态訓練的效率，使萬卡任務上的模型有效訓練時長占比達到 99.5%、端到端的性能提升 30%。

在模型推理方面，百度智能雲同樣展現了全棧式的優勢，百舸适配了各類客戶場景，既支持用戶自定義鏡像部署，滿足個性化需求；又能在英偉達、昆侖等異構芯片上實現推理服務，兼顧成本與性能；針對主流的文生圖、文生視頻、多模态模型，還提供了一系列加速優化方案，通過架構分離、KV Cache、負載分配等一系列加速工作，讓長文本推理效率提升了 1 倍多。

作為一個全棧式開發平台，千帆平台提供了不同層級的開發路徑。對于普通 AI 應用開發者新手，千帆 ModelBuilder 提供開箱即用的多模态能力，涵蓋影像生成、理解、視頻生成等熱門領網域。用戶只需調用 API 接口，即可實現多模态互動，無需理會背後復雜的模型結構和訓練過程。除此之外，千帆 AppBuilder 作為企業級應用開發平台，可以幫助客戶和開發者不斷降低應用開發門檻，提供豐富的多模态能力，包括文生圖、影像内容理解等圖片處理組件，短語音識别、短文本在線合成等語音處理組件以及數字人功能等，同時可實現多渠道對外集成分發，滿足更豐富的應用需求場景。

對于追求定制化的企業用戶，千帆提供靈活的定制化服務。用戶可利用平台的數據處理、模型訓練、推理優化等工具，構建匹配自身業務場景的多模态解決方案，支持從數據處理到模型訓練的全流程開發。平台還集成了主題模型庫，覆蓋智能客服、數字人、知識管理等熱門領網域，幫助用戶快速搭建行業性多模态應用。

具體來看，千帆平台提供了非常全面、靈活的多模态服務方案。如果客戶需要直接使用多模态大模型，可以在千帆上一鍵調用包括百度文心一格、Stable Difusion、Vidu 等在内的主流模型，覆蓋從文生圖、文生視頻到影像理解等多個應用領網域。如果客戶希望定制化訓練和微調專屬多模态大模型，搭建個性化應用，千帆平台同樣提供強有力的算力和工具支持。

無論是復雜模型的訓練，還是大規模推理能力的實現，雲服務都在背後扮演着關鍵角色。通過提供這些基礎設施服務，百度智能雲幫助開發者和企業更專注于應用創新，而不必過多關注底層技術細節。

除此之外，百度智能雲還将多模态能力進一步沉澱到行業解決方案和產品中。比如在工業領網域，打造了 " 一見 " 視覺大模型平台；在智能客服場景，提供多模态對話能力；在數字人領網域，實現了文生 3D 視頻。可以說，百度智能雲的多模态服務已經滲透到各行各業的關鍵生產力環節，以更貼近需求的方式幫助企業提質增效。

不做 Sora，是為了更多的 Sora

在百度智能雲支撐下，越來越多的創新企業與開發者已經匯聚于此，借 " 他山之石 "，砌築自己的 " 高樓 "。

生數科技就是其中的典型代表。這家致力于多模态大模型研發的明星企業，在百度百舸平台的加持下，推出了國内首個純自研的視頻大模型 Vidu。通過百舸平台超強的容錯能力和訓練加速能力，生數科技将 Vidu 訓練素材渲染加速效率提升了 3 倍，數據拉取效率更是提升了 51 倍，可以說，百度為這個 " 國產 Sora" 的誕生提供了堅實的算力保障。

類似的案例還有哇嘶嗒 ( VAST ) ，這家 3D-AIGC 領網域的佼佼者同樣将百度智能雲視為 AI 創新的 " 壓艙石 "。其面世的 3D 内容創作工具 "Tripo" 備受全球矚目，被稱為 3D 領網域的 "GPT-4"。而這一切的背後，正是百舸平台在算力、成本、工程化等方面的全方位賦能，幫助 VAST 快速構建起強大 AI 基礎設施，獲得成熟的 AI 工程化能力。

當然，多模态 AI 生态的觸角遠不止于内容創作領網域。以光魔科技為例，這家企業就瞄準了 AIGC 平台的普惠化。在百度智能雲視頻解決方案以及百舸平台的加持下，光魔科技推出的 " 白日夢 AI" 實現了一鍵式的文生視頻能力，讓每個普通用戶都能 " 編出 " 專屬影片，已經擁有大量忠實擁趸。

除了聚焦前沿技術的創業公司，百度智能雲還在為百勝中國這樣的 " 傳統巨頭 " 提供服務。依托百度智能雲的大模型能力和智能客服解決方案，這家餐飲巨頭打造了特色 AI 客服系統。該系統能夠關聯上下文、精準識别客戶真實意圖，提供更好的售後服務支持，同時還能輔助人工客服快速總結訴求、優化服務流程。這為百勝中國節省了大量客服成本，同時又提升了用戶滿意度。

由此可見，百度智能雲正以其 " 地基 " 般的算力支持、有梯度的開發平台，為整個多模态 AI 生态提供源源不斷的 " 能量 "，在未來孵化了出更多的 "Vidu"、"Tripo"，乃至更多的 "Sora"。

" 解決問題的 AI"

對比雲計算對互聯網產業的變革，以 AWS 為例，它不僅改變了企業的 IT 基礎設施，更重要的是催生了新的商業模式和創新企業生态。進入 AI 時代，多模态 AI 代表了人工智能從專項能力到綜合認知的重要躍升，這種突破不僅體現在技術維度的拓展，更反映在應用範式的轉變上。

AWS 的 AI 時代的實踐同樣提供了一個很好的觀察樣本：在傳統 AI 開發中，需要針對特定問題進行精心設計和訓練。但在生成式 AI 時代，AWS 認為成功的產品化之路不應局限于單一模型的性能競争，而是要着眼于更廣闊的技術組合與應用場景，更多強調 " 降本增效 "、" 實用 " 的 AI。

技術永遠只是手段而非目的本身。多模态 AI 正在重構傳統的價值鏈條，這個過程中的關鍵在于如何将技術創新轉化為可落地的解決方案，使不同規模、不同行業的企業都能找到适合自身的數字化轉型路徑。

特别值得關注的是，不同于過往依賴單一技術平台的垂直整合，新一代 AI 基礎設施更強調開放協作。這種模式使得不同規模、不同行業的企業都能找到适合自身的數字化轉型路徑，從而讓 AI 成為真正能夠解決問題的 AI。從這個角度來看，百度智能雲和 AWS 顯然站在同一戰線上：通過構建開放、靈活的 AI 基礎設施，降低技術使用門檻，讓 AI 真正服務于產業創新。

結語

在全球 AI 競争日益激烈的背景下，不同企業呈現出截然不同的技術路線和發展策略。這是無可厚非的，在這個仍處于摸索階段的賽道上，技術和商業路線的多樣化不僅有利于推動整個領網域的創新突破，也能為不同場景和需求提供更豐富的解決方案。

市場研究和咨詢公司 Omdia 在最新發布的報告中指出，将技術轉化為可落地的解決方案同樣關鍵。百度智能雲在多模态生成式 AI 技術和商業成功方面展現了領導力。Omdia 預計，百度智能雲将繼續在中國引領多模态生成式 AI 應用的部署和實施。

百度 " 應用驅動 " 的思路或許啟示了我們：AI 技術的發展不應陷入簡單的技術競賽，而是要着眼于更加可持續的商業價值和社會價值。通過深入產業、理解需求，将創新成果轉化為切實可行的解決方案，從而推動技術與產業邁向下一個階段。