不做Sora背後：百度的多模态路線是什麼？

今天小編分享的科技經驗：不做Sora背後：百度的多模态路線是什麼？，歡迎閱讀。

當 ChatGPT 掀起國内 " 百模大戰 "，百度率先交卷文心一言。

Sora 再掀視頻生成風潮，卻傳出李彥宏内部講話"Sora 無論多麼火，百度都不去做 "。

一時間，困惑、不解、争議，紛至沓來。

面對這些聲音，在剛剛結束的百度世界大會會後采訪中，李彥宏公開回應。

他不僅重申了不做 Sora 的決定，并且說明了百度是如何運用和發展多模态的。

在大會發布中，李彥宏發布了百度從年初開始重點攻克的iRAG 技術，這項技術旨在解決 AI 領網域最棘手的 " 幻覺 " 問題。有趣的是，這個開始正好是在 Sora 風正熱之時。

百度的選擇背後原因，到底是什麼？

△百度 2024 世界大會現場

加速解決幻覺問題

先從 iRAG 技術看。它所解決的是圖片生成的幻覺問題。

在年初，不做 Sora，轉頭将資源放在幻覺解決上。為什麼？

結合這屆百度世界大會主題" 應用來了 "來理解：

幻覺已經成為制約大模型應用大規模落地的一大絆腳石。

現代社會對計算器已有絕對的信任，只要保證輸入是對的，就可以百分百放心地把計算結果用到下一步工作流程中。

但對于已知可能存在幻覺的大模型來說，還敢給予同等的信任嗎？

△新版文小言 APP 繪圖

有幻覺，即意味着模型行為不完全可控，不能完全放心的自動化工作流程，依然需要人工介入。

AI 應用正面臨這樣的困境。

事實上，ChatGPT 問世之後，大模型的幾個主要改進方向都是通過不同方式來解決大模型幻覺問題。

長上下文視窗，讓模型獲取更完整的輸入，減少因信息不全產生的錯誤推理。

RAG（檢索增強生成），檢索外部知識庫補充信息，彌補模型參數存儲知識的不足。

聯網搜索，獲取實時、動态的在線信息，擴展模型的知識邊界。

慢思考，通過分步推理減少直覺性錯誤，提高推理過程的可解釋性。

甚至從某種意義上說，多模态技術也是讓模型多一種信息輸入途徑，不用在 " 看不見 " 視覺信息的情況下為了完成任務憑空編造。

……

所以再次總結一下，為什麼解決幻覺問題是目前 AI 行業的當務之急？

從技術層面，不解決幻覺問題就難以預測和控制模型的行為邊界。

從應用的角度來看，幻覺問題阻礙了用戶對 AI 產品的信任。

從產業角度，解決了幻覺問題才能擴大 AI 可應用的場景範圍，提高 AI 系統的商業價值。

再将目光轉向百度，解決 AI 幻覺問題，恰恰也是百度的 " 主戰場 "。

iRAG，全稱 Image-based Retrieval-Augmented Generation，是一種全新的檢索增強文生圖範式，結合了百度多年的搜索積累，幫助大幅提升圖片的生成可控性和準确性。

其核心是将百度搜索的億級圖片資源與文心大模型的生成能力相結合，通過聯合優化，讓生成圖片更加真實可信。

△百度 2024 世界大會現場

具體而言，iRAG 先利用檢索模塊在海量圖庫中找出與文本描述最相關的若幹圖片，然後提取其視覺特征，與文本特征一并輸入到生成模塊。生成模塊在此基礎上，對影像進行理解、重組、創新，最終輸出高質量、符合需求的全新圖片。

△文心大模型生成的大眾攬巡汽車飛躍長城

可以說，iRAG 巧妙地将認知智能（檢索）與生成智能（創作）結合在一起，取長補短，相得益彰。

一方面，海量影像的參考讓生成更 " 接地氣 "，大幅減少了幻覺、違禁内容等問題。

另一方面，強大的生成能力讓輸出圖片更多樣、更具創意，遠非單純的拼貼、修改那麼簡單。

更重要的是，iRAG 在諸多行業領網域都具有廣闊應用前景，尤其能顯著降低 AI 生圖的創作成本。比如在影視制作、動漫設計中，iRAG 可實現從文本腳本直接生成高質量的分鏡、概念圖，大幅減少中間環節的人工幹預。

多模态，不止 Sora 一條路

明确了幻覺問題是 AI 行業的優先級，百度還需要回答另一種質疑：多模态已經是公認邁向 AGI 的重要一步。

多模态有助于增強 AI 系統的感知和理解能力。通過處理視覺、語音、文本等不同模态的信息，AI 可以更全面地感知環境，增強其認知和互動能力，與人類通過多種感官認知世界保持一致。

但這裡要明确的是，Sora 路線并不能代表多模态技術的全部。

首先，投入做 Sora 代表的通用視頻生成模型投入的成本非常高昂。市場研究機構 Factorial Funds 報告估算，Sora 模型至少需要在 4200~10500 塊英偉達 H100 GPU 上訓練 1 個月。而如果 Sora 得到大範圍應用，為了滿足需求，需要約 72 萬張 Nvidia H100 GPU，如果按照每片英偉達 H100 AI 加速卡 3 萬美元成本計算，72 萬片需要216 億美元。

而目前通用視頻生成模型在技術成熟度上距離 iPhone 時刻也還有較遠的距離。此前與藝術家合作短片《Air Head》後來就被指出實際有大量人工參與，估算只有約 1/300 的 AI 素材用到了最終成片裡。

△圖源 fxguide.com

目前市場視頻生成應用從短劇内容生產到影視特效制作，很多努力都在摸索視頻生成技術的想象空間，但尚未形成成熟的商業化方案和穩定的營收模式。

其實，對于做多模态來說，也存在 Sora 之外的多種路徑。‍‍‍

Meta 首席科學家、圖靈獎得主 Yann LeCun 就一直堅持 " 世界模型 " 路線。他認為生成視頻的過程與基于世界模型的因果預測完全不同，通過生成像素來對世界進行建模是一種浪費，注定會失敗。

斯坦福教授李飛飛則看重具身智能，她認為 AI 僅僅看是不夠的，" 看，是為了行動和學習 "。比如通過大語言模型，讓一個機器人手臂執行任務，打開一扇門、做一個三明治以及對人類的口頭指令做出反應等。

百度對多模态技術的理解，最近也在數字人場景得到集中體現。

百度從 2019 年起就開始布局數字人領網域，涉及語音克隆、唇形同步、表情動作捕捉等一系列關鍵技術。到如今百度 " 曦靈 " 數字人、" 慧播星 " 數字人已廣泛應用于新聞播報、直播電商等場景。

△百度慧播星電商數字人

正如李彥宏強調的，百度不做 Sora，并不意味着在多模态賽道上缺席了。

數字人語音與口型、動作的同步問題，或許最終可以靠通用場景下的視頻生成實現，但需要很長時間，成本很高。

但既然可以用更簡單、成本更低的方法做到，為什麼不先把業務跑起來呢？

首先，通用方案追求 " 大而全 "，試圖用單一模型覆蓋所有場景，但這在技術上尚不成熟，往往帶來效果的參差不齊 ; 而數字人聚焦特定垂直領網域，可以更精準地優化模型，追求極致的人機互動體驗。

其次，視頻生成好就是固定的素材了，缺乏實時互動能力；而 AI 驅動的數字人卻可以實現動态多輪對話，甚至還可以根據用戶反饋實時調整狀态，更加契合真實應用的需求。

最後，視頻生成對算力和數據的要求極高，當前能夠真正駕馭的企業鳳毛麟角，商業化進程困難重重 ; 相比之下，數字人技術門檻相對較低，且應用場景清晰，更容易形成可復制的商業模式，開啟數據飛輪。

AI 大規模落地需要什麼條件？

不論是投入解決圖片幻覺問題，還是從業務需求出發發展多模态的路線，百度的目标似乎都圍繞着李彥宏所說的：讓技術被更多人用起來。

李彥宏這段時間不斷強調的一個觀點是 " 模型本身不產生直接價值 "，只有在模型之上開發各種各樣應用，在各種場景找到所謂的 PMF，才能真正產生價值。

百度需要做的，是為個人和企業提供開發應用的基建，幫助更多人、更多企業打造出數百萬 " 超級有用 " 的應用。

長遠來看，幻覺問題的解決為行業應用消除了障礙，使得 AI 技術能夠在更廣泛的領網域得到應用和推廣。

用業務需要的多模态技術支持業務先跑起來，能讓更多的 AI 應用場景為大家所用。

同時，大量的行業應用所產生的數據，又能為 AGI 的發展提供豐富的養分，形成良性循環，推動數據飛輪的高速運轉，從而加快我們邁向 AGI 的步伐。

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~