大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

不做Sora背後:百度的多模态路線是什麼?

2024-11-16 简体 HK SG TW

今天小編分享的科學經驗:不做Sora背後:百度的多模态路線是什麼?,歡迎閲讀。

當 ChatGPT 掀起國内 " 百模大戰 ",百度率先交卷文心一言。

Sora 再掀視頻生成風潮,卻傳出李彥宏内部講話"Sora 無論多麼火,百度都不去做 "。

一時間,困惑、不解、争議,紛至沓來。

面對這些聲音,在剛剛結束的百度世界大會會後采訪中,李彥宏公開回應。

他不僅重申了不做 Sora 的決定,并且説明了百度是如何運用和發展多模态的。

在大會發布中,李彥宏發布了百度從年初開始重點攻克的iRAG 技術,這項技術旨在解決 AI 領網域最棘手的 " 幻覺 " 問題。有趣的是,這個開始正好是在 Sora 風正熱之時。

百度的選擇背後原因,到底是什麼?

△百度 2024 世界大會現場

加速解決幻覺問題

先從 iRAG 技術看。它所解決的是圖片生成的幻覺問題。

在年初,不做 Sora,轉頭将資源放在幻覺解決上。為什麼?

結合這屆百度世界大會主題" 應用來了 "來理解:

幻覺已經成為制約大模型應用大規模落地的一大絆腳石。

現代社會對計算器已有絕對的信任,只要保證輸入是對的,就可以百分百放心地把計算結果用到下一步工作流程中。

但對于已知可能存在幻覺的大模型來説,還敢給予同等的信任嗎?

△新版文小言 APP 繪圖

有幻覺,即意味着模型行為不完全可控,不能完全放心的自動化工作流程,依然需要人工介入。

AI 應用正面臨這樣的困境。

事實上,ChatGPT 問世之後,大模型的幾個主要改進方向都是通過不同方式來解決大模型幻覺問題。

長上下文視窗,讓模型獲取更完整的輸入,減少因信息不全產生的錯誤推理。

RAG(檢索增強生成),檢索外部知識庫補充信息,彌補模型參數存儲知識的不足。

聯網搜索,獲取實時、動态的在線信息,擴展模型的知識邊界。

慢思考,通過分步推理減少直覺性錯誤,提高推理過程的可解釋性。

甚至從某種意義上説,多模态技術也是讓模型多一種信息輸入途徑,不用在 " 看不見 " 視覺信息的情況下為了完成任務憑空編造。

……

所以再次總結一下,為什麼解決幻覺問題是目前 AI 行業的當務之急?

從技術層面,不解決幻覺問題就難以預測和控制模型的行為邊界。

從應用的角度來看,幻覺問題阻礙了用户對 AI 產品的信任。

從產業角度,解決了幻覺問題才能擴大 AI 可應用的場景範圍,提高 AI 系統的商業價值。

再将目光轉向百度,解決 AI 幻覺問題,恰恰也是百度的 " 主戰場 "。

iRAG,全稱 Image-based Retrieval-Augmented Generation,是一種全新的檢索增強文生圖範式,結合了百度多年的搜索積累,幫助大幅提升圖片的生成可控性和準确性。

其核心是将百度搜索的億級圖片資源與文心大模型的生成能力相結合,通過聯合優化,讓生成圖片更加真實可信。

△百度 2024 世界大會現場

具體而言,iRAG 先利用檢索模塊在海量圖庫中找出與文本描述最相關的若幹圖片,然後提取其視覺特征,與文本特征一并輸入到生成模塊。生成模塊在此基礎上,對影像進行理解、重組、創新,最終輸出高質量、符合需求的全新圖片。

△文心大模型生成的大眾攬巡汽車飛躍長城

可以説,iRAG 巧妙地将認知智能(檢索)與生成智能(創作)結合在一起,取長補短,相得益彰。

一方面,海量影像的參考讓生成更 " 接地氣 ",大幅減少了幻覺、違禁内容等問題。

另一方面,強大的生成能力讓輸出圖片更多樣、更具創意,遠非單純的拼貼、修改那麼簡單。

更重要的是,iRAG 在諸多行業領網域都具有廣闊應用前景,尤其能顯著降低 AI 生圖的創作成本。比如在影視制作、動漫設計中,iRAG 可實現從文本腳本直接生成高質量的分鏡、概念圖,大幅減少中間環節的人工幹預。

多模态,不止 Sora 一條路

明确了幻覺問題是 AI 行業的優先級,百度還需要回答另一種質疑:多模态已經是公認邁向 AGI 的重要一步。

多模态有助于增強 AI 系統的感知和理解能力。通過處理視覺、語音、文本等不同模态的信息,AI 可以更全面地感知環境,增強其認知和互動能力,與人類通過多種感官認知世界保持一致。

但這裏要明确的是,Sora 路線并不能代表多模态技術的全部。

首先,投入做 Sora 代表的通用視頻生成模型投入的成本非常高昂。市場研究機構 Factorial Funds 報告估算,Sora 模型至少需要在 4200~10500 塊英偉達 H100 GPU 上訓練 1 個月。而如果 Sora 得到大範圍應用,為了滿足需求,需要約 72 萬張 Nvidia H100 GPU,如果按照每片英偉達 H100 AI 加速卡 3 萬美元成本計算,72 萬片需要216 億美元。

而目前通用視頻生成模型在技術成熟度上距離 iPhone 時刻也還有較遠的距離。此前與藝術家合作短片《Air Head》後來就被指出實際有大量人工參與,估算只有約 1/300 的 AI 素材用到了最終成片裏。

△圖源 fxguide.com

目前市場視頻生成應用從短劇内容生產到影視特效制作,很多努力都在摸索視頻生成技術的想象空間,但尚未形成成熟的商業化方案和穩定的營收模式。

其實,對于做多模态來説,也存在 Sora 之外的多種路徑。‍‍‍

Meta 首席科學家、圖靈獎得主 Yann LeCun 就一直堅持 " 世界模型 " 路線。他認為生成視頻的過程與基于世界模型的因果預測完全不同,通過生成像素來對世界進行建模是一種浪費,注定會失敗。

斯坦福教授李飛飛則看重具身智能,她認為 AI 僅僅看是不夠的," 看,是為了行動和學習 "。比如通過大語言模型,讓一個機器人手臂執行任務,打開一扇門、做一個三明治以及對人類的口頭指令做出反應等。

百度對多模态技術的理解,最近也在數字人場景得到集中體現。

百度從 2019 年起就開始布局數字人領網域,涉及語音克隆、唇形同步、表情動作捕捉等一系列關鍵技術。到如今百度 " 曦靈 " 數字人、" 慧播星 " 數字人已廣泛應用于新聞播報、直播電商等場景。

△百度慧播星電商數字人

正如李彥宏強調的,百度不做 Sora,并不意味着在多模态賽道上缺席了。

數字人語音與口型、動作的同步問題,或許最終可以靠通用場景下的視頻生成實現,但需要很長時間,成本很高。

但既然可以用更簡單、成本更低的方法做到,為什麼不先把業務跑起來呢?

首先,通用方案追求 " 大而全 ",試圖用單一模型覆蓋所有場景,但這在技術上尚不成熟,往往帶來效果的參差不齊 ; 而數字人聚焦特定垂直領網域,可以更精準地優化模型,追求極致的人機互動體驗。

其次,視頻生成好就是固定的素材了,缺乏實時互動能力;而 AI 驅動的數字人卻可以實現動态多輪對話,甚至還可以根據用户反饋實時調整狀态,更加契合真實應用的需求。

最後,視頻生成對算力和數據的要求極高,當前能夠真正駕馭的企業鳳毛麟角,商業化進程困難重重 ; 相比之下,數字人技術門檻相對較低,且應用場景清晰,更容易形成可復制的商業模式,開啓數據飛輪。

AI 大規模落地需要什麼條件?

不論是投入解決圖片幻覺問題,還是從業務需求出發發展多模态的路線,百度的目标似乎都圍繞着李彥宏所説的:讓技術被更多人用起來。

李彥宏這段時間不斷強調的一個觀點是 " 模型本身不產生直接價值 ",只有在模型之上開發各種各樣應用,在各種場景找到所謂的 PMF,才能真正產生價值。

百度需要做的,是為個人和企業提供開發應用的基建,幫助更多人、更多企業打造出數百萬 " 超級有用 " 的應用。

長遠來看,幻覺問題的解決為行業應用消除了障礙,使得 AI 技術能夠在更廣泛的領網域得到應用和推廣。

用業務需要的多模态技術支持業務先跑起來,能讓更多的 AI 應用場景為大家所用。

同時,大量的行業應用所產生的數據,又能為 AGI 的發展提供豐富的養分,形成良性循環,推動數據飛輪的高速運轉,從而加快我們邁向 AGI 的步伐。

—  完  —

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們