Sora後觀察：AI大模型產業落地的八個錨點

今天小編分享的互聯網經驗：Sora後觀察：AI大模型產業落地的八個錨點，歡迎閱讀。

圖片來源 @視覺中國

文 | 產業家，作者 | 鬥鬥，編輯 | 皮爺

" 電影講述了一名 30 歲男士的太空歷險記，他身穿紅色羊毛針織，戴着摩托車頭盔，放眼望去只有藍天和鹽漠。請制作出色彩鮮豔的電影風格短片，用 35 毫米的膠片拍攝。"

這段提示詞來自 OpenAI 首個文生視頻模型 Sora 的介紹頁面。在提示詞對應的視頻中，視頻播放流暢、畫質清晰、視頻長度、連貫性、多鏡頭切換等方面的出色表現讓人驚嘆。

值得注意的是，在 Pika 發布產品後的短短不到 3 個月時間裡，OpenAI Sora 在視頻時長、視頻畫幅、擴展視頻能力等方面就邁出了堪稱 " 王炸 " 新一步。

資本市場顯示，随着 AI 視頻模型 Sora 的炸裂登場，A 股掀起 AI 熱潮，盤中人工智能指數一度漲超 7%，多只個股漲停。

2024 年的大門，已然由人工智能大模型 " 文生視頻 " 敲響。一個嶄新時代正在來臨。

過去的一年，從生成式 AI 的爆發性創新，到模型小型化與場景化應用的深度融合，再到開源生态的繁榮和跨領網域的協同效應，AI 大模型正以前所未有的速度重塑世界。

在這個歷史性的轉捩點上，也在 Sora 出現的節點，我們試圖深入剖析 AI 大模型發展的 8 個錨點：在已經拉開帷幕的 2024 年，AI 技術的發展标志将會是什麼？将會在哪裡？以及通向 AGI，當下的世界将會走出哪幾條路？

毫無疑問，一輪新的 AI 生產力革命正在到來。

一、垂直模型走出來，加速大模型落地

一個市場共識是，在通用大模型領網域，鑑于高昂的研發資金壁壘，只有少數科技巨頭有望在競争中勝出，因為基礎大模型對于需求多元的廣大中小企業來說并不具備廣泛适用性。

就目前來看，市面上的主流大模型廠商互聯網廠商幾乎占據半壁江山，例如百度文心大模型、阿裡通義大模型、騰訊混元大模型等。

客觀來看，通用大模型往往難以精準解決所有企業的具體問題，企業選擇大模型時，關鍵考量因素還包括其對行業特性的契合度、數據安全策略、迭代更新能力以及綜合成本效益等。

能夠預知的是，今年大模型發展将會愈發呈現顯著的細分化趨勢，主要分為通用型、專用型以及針對特定場景設計的模型。

垂直行業的專業模型将在推動大模型廣泛應用方面扮演重要角色，通過整合通用公網域數據與行業專有數據，共同構建起產業級大模型訓練所需的數據基礎。

例如，在醫療行業中，由潤達醫療聯手華為雲研發的 " 良醫小慧 " 就是一款專注于醫療檢驗領網域的垂直大模型，它基于盤古大模型和慧檢檢驗知識圖譜進行構建。同樣地，在教育領網域，網易有道推出的首個經官方備案的教育垂直大模型—— " 子曰 "，已經成功應用于智能硬體及 App 產品之中。

來源：億歐 · TE《AIGC 商業落地產業圖譜 2.0》

供應鏈管理方面，企企通憑借其在數字采購方面的 " 多邊賦能 " 戰略，很可能已在探索或已研發出專門針對采購和供應鏈管理流程優化的垂直 AI 模型。在旅遊行業，攜程推出的首個旅遊垂直大模型 " 攜程問道 "，為用戶提供全程智能化的服務支持，從出行前的規劃到旅途中的服務再到行程後的反饋，都體現了 AI 技術對旅遊業深度變革的影響。

這種行業垂直模型在新的一年裡将成為技術突破之外的一個核心落地趨勢，即專注行業、專注產業、專注垂直數據。如企業安全管理、财稅管理等領網域，這些更為精密的領網域或将在 2024 年出現新的 AI 機會。

二、AI Agent，C 端 AI 應用跑向全面商業化

随着深度學習、強化學習等人工智能理論研究的發展，以及大模型如 GPT 系列、Alpha 系列等在實踐中的成功運用，如今的 AI Agent 已經具備了較為成熟的知識表示、學習和推理能力。

從國外視角來看，如今 OpenAI 的 GPT-3 已用于生成代碼、文本創作等多種場景，可以作為成熟的 C 端工具被人們使用，

除了單純工具層面的使用，伴随着技術突破和應用逐漸落地，AI Agent 正逐步實現視覺、聽覺、語言等多模态信息的綜合處理，使其能夠理解并适應更為復雜的現實環境，并應用于 C 端市場。

例如，谷歌提出的 CoCa 就是結合影像和文字理解的多模态預訓練模型，其應用場景正在不斷拓寬。在客戶服務、教育、醫療、工業制造等領網域，基于 AI Agent 的智能客服系統、教學助手、診斷輔助工具、自動化生產線決策支持系統等開始規模化部署和應用。

此外，在 2024 年，還能明确看到的是 AI Agent 不僅體現在軟體工具層面的進步，也伴随着智能硬體設備（如機器人、無人機）的智能化更新，實現了軟硬一體的集成應用，進一步推動其實用化進程。例如，自動駕駛車輛中的決策系統、家庭服務機器人中的互動模塊等。

無論是理論基礎的夯實、技術產品的推出，還是實際案例的豐富、產業鏈條的完善，都充分表明 AI Agent 正逐步從理論研究走向實用化階段。

國内企業也更在加速競争這一市場，如釘釘、飛書、金山辦公等 AI Agent 的應用。

釘釘在其產品中接入了名為 " 通義千問 " 的大模型。通過集成這一強大的 AI 技術，釘釘能夠為用戶提供更加智能的協同服務，例如智能客服、語音轉文字、會議紀要自動生成、智能日程管理等。

此外，" 通義千問 " 還可能幫助用戶在工作場景下進行復雜問題的解答，提供跨部門信息查詢以及根據業務需求定制化的解決方案。

飛書則推出了智能助手 "MyAI"。它能夠理解并執行用戶的自然語言指令，處理日常工作流程中的任務，比如檔案檢索、項目進度跟蹤、内部溝通協調等，并且結合機器學習能力不斷優化用戶體驗。據了解，如今飛書的 MyAI 也在不斷實現更高級别的自動化辦公功能，如預測團隊工作負荷、智能推薦工作流程優化方案等。

諸如此類的落地案例都正在生成熟過程中，而伴随着軟體和硬體形态的成熟，AI Agent 也正在從單純的 " 炫技 " 走進實用階段。

三、MaaS 模式走向成熟，"AI+ 雲 " 普惠化加速

MaaS（Model-as-a-Service，模型即服務）是一種雲計算模式，通過将預先訓練好的 AI 模型以 API 或 SDK 形式提供給開發者和企業用戶使用，使得他們無需從零開始構建復雜的機器學習模型，可以快速地将 AI 技術集成到自己的產品和服務中。

具體來看，MaaS 簡化了 AI 的使用流程，無需用戶擁有深厚的 AI 技術和大量計算資源來訓練模型，降低了企業和個人應用 AI 技術的難度和成本。MaaS 還提供标準化接口，用戶可以根據自身需求靈活調用不同的模型服務，節省了大量的研發時間和資金投入。

用戶不必在本地維護和運行復雜的模型，而是通過雲端服務按需調用，實現了計算資源的有效利用和經濟高效。MaaS 模式能夠支持不同行業、不同規模的企業快速實現業務智能化，例如精準營銷、風險評估、智能客服等場景，進一步加速 AI 在各行業的普及和應用。

此模式下，服務商負責模型的持續優化和更新，用戶只需關注業務邏輯和最終效果，可以享受到最新的 AI 成果和技術進步帶來的好處。

從雲廠商來看，華為、騰訊雲、阿裡雲、百度智能雲等一眾大廠都在提供此類服務。專業廠商燧原科技也在其 " 曜圖™文生圖 MaaS 平台 " 上提供了基于大模型的服務。此外，還有許多專注于特定領網域或行業的初創公司和傳統軟體服務商也開始提供 MaaS 相關服務。

能夠預知的是，這種模式也将成為雲廠商的一種新型服務模型，在 SaaS、PaaS、IaaS 之外，為企業提供新型的付費模式，對雲計算場而言，這恰是一個新的發展和市場拓展方向。

四、大模型 " 裝進 " 終端，殺手級大模型應用誕生

2023 年以來，諸多模型廠商、硬體廠商，都相繼發布将大模型裝進終端的願景。芯片廠商如英偉達、英特爾和安謀等都在積極研發終端 AI 芯片產品，有力地支持了大模型在消費電子市場中的廣泛應用。

随着技術的進步和優化，包括模型小型化、輕量化、邊緣計算能力增強以及低功耗設計的發展，越來越多的大模型或其簡化版本有望嵌入到個人電腦、智能手機、AR 眼鏡、家電等各種智能終端中。

此外，業界專家對于大模型在更多垂直領網域的應用也持樂觀态度，就目前而言智譜、通義等國内大模型廠商，已經逐漸推出适配手機終端的 " 輕量級 " 模型。

而在手機廠商一側，小米公布了其歷史上首個 GPT 大模型產品 MiLM；OPPO 發布了個性專屬大模型與智能體即安第斯大模型（AndesGPT）；vivo 正式發布了自研 AI 大模型藍心 BlueLM；榮耀 Magic6 支持榮耀自研的 7B 端側 AI 大模型；華為宣布盤古大模型也開始融入到智能手機中……

這種趨勢下，預計 2024 年會有更多的定制化、行業化的 " 輕量級 " 大模型實現商業落地，為用戶帶來更加個性化、高效且實時的本地智能服務。

随着這一願景的落地，一些過去較難實現的技術也将照進現實。

例如高度個性化、能夠深度理解用戶需求的語音助手，可以更精準地預測用戶行為和提供決策建議，幫助處理日常事務、制定行程規劃等；

在醫療、法律、教育等領網域，大模型可以作為專家系統，直接在移動設備上提供專業的咨詢服務，例如基于患者症狀即時給出初步診斷建議或法律咨詢意見；

大模型驅動的影像生成、視頻剪輯、文字寫作等創作工具，讓用戶通過簡單的指令就能生成高質量的内容，比如一鍵生成營銷海報、自動生成短視頻劇本等；

家庭智能設備中集成的大模型可實現自主學習與優化家庭環境，包括節能管理、安全防護、舒适生活體驗等方面的自動化決策，并具備更強的理解和互動能力；

企業級軟體中的大模型應用，如财務分析、市場趨勢預測、客戶關系管理等，可在移動端快速響應復雜問題，為管理者提供實時決策支持。

總之，在 2024 年，大模型與終端設備相結合的應用場景将進一步豐富和深化，從理論走向實踐，并可能催生出新的殺手級應用產品和服務。這其中尤其以手機廠商和智能家居廠商為代表，作為上一個時代的入口，他們也更在致力于成為 AI 時代的新入口。

五、多模态大模型，重新定義人與機器互動

伴随着 Sora 的出現，能夠感知到的是，除了在計算機視覺、自然語言處理等特定領網域模型的發展，多模态大模型的進一步交叉融合或将成為 2024 年未來重要的實踐方向。

不同于傳統的互動方式通常局限于單一模态，比如鍵盤輸入或觸摸屏操作。多模态大模型可以整合并理解多種不同的輸入模式（如語音、影像、文本、手勢等），從而模仿人類自然交流的復雜性和豐富性，接近于我們日常生活中與他人交流的方式。

正如文章開篇所言，OpenAI Sora 便是多模态大模型的典型案例。而從資本對其的态度，就不難看出其未來落地的巨大商業價值。

可以預見，未來多模态大模型可以識别和響應用戶的聲音指令、面部表情、肢體動作甚至是眼神接觸，使用戶能夠像與真人交談一樣與機器互動，極大地提高了互動的自然度和舒适感。

還能夠融合不同模态的信息來提取更深層次的意義，例如通過結合視覺和聽覺信息理解上下文，使得機器能更好地解析用戶意圖，即使在模糊、嘈雜或非正式的情境下也能進行有效溝通。

基于深度學習的大模型可以根據用戶的習慣和偏好進行自我優化和個性化服務，提供更加精準的反饋和建議，實現動态且個性化的互動過程。

對于有特殊需求的用戶，如殘障人士，多模态互動提供了更多樣化的互動手段，允許他們通過最适合自己的方式進行交流，從而提升技術的包容性和可達性。

在虛拟現實（VR）和增強現實（AR）環境中，多模态大模型能夠通過感知用戶的全面感官輸入來創建高度沉浸式的環境，實現實時反饋和互動。

在團隊協作和遠程辦公場景中，多模态系統能夠捕捉和解釋多個人同時發出的不同模态信号，促進高效溝通和協作。

這種多模态大模型，将使得未來人與機器之間的互動方式将更加豐富，或通過文字、視覺、語音等多維度溝通，進而提升效率。

目前大廠也在紛紛布局，如阿裡雲達摩院在自然語言處理、影像識别等領網域有豐富的多模态技術應用，并已推出了相應的服務和產品；騰訊優圖在計算機視覺和多模态智能方面有深度研究，其產品和服務涵蓋了從内容理解到社互動動等多個應用場景；百度的大規模預訓練模型如 ERNIE-ViLG 等具備多模态理解和生成能力，服務于搜索、廣告、地圖等多種場景。

六、大模型訓練數據付費：數據價值提上新高度

2023 年年末，OpenAI 與 AxelSpringer 籤訂的一個協定表明，人工智能在使用媒體品牌内容進行大模型訓練時将需要向媒體品牌付費，這意味着 AI 大模型向數據提供方的知識產權付費或将成為行業趨勢。

2023 年，國内多地出台促進 AI 技術發展的政策檔案，如《北京市促進通用人工智能創新發展的若幹措施》和《深圳市加快推動人工智能高質量發展水平應用行動方案》，其中均提到 " 高質量數據集 "。

此外，國家網信辦等七部門聯合發布的《生成式人工智能服務暫行管理辦法》規定了生成式 AI 服務提供者不得侵害他人知識產權。

可見，當前 AI 政策密集出台，高質量數據集和訓練數據版權問題得到重視，未來優質訓練數據庫的價值将得到凸顯。

目前在大模型訓練過程中，特别是在深度學習領網域中，針對大規模數據的管理和訪問效率，一些向量數據庫以及分布式存儲系統表現較為突出，例如騰訊雲推出的向量數據庫服務和阿裡雲分布式 NoSQL 數據庫等等。

此外，數據問題不單純是數據庫的問題，在 2024 年一些關于數據的隐私保護和确權問題也更将浮上水面：比如 AI 大模型廠商到底可以使用怎樣的數據進行訓練，專有數據集的來源在哪裡，以及如何通過标注等獲得更好的數據集，甚至基于 AI 大模型產出的產品，版權到底屬于誰？

這些數據層面的問題将在 2024 年成為新的 AI 引爆點。

七、算力成本高昂，本土 AI 芯公司加速成長

數據顯示，如今 AI 企業平均的 GPU 和 TPU 成本分别為 7.39 萬元和 2.29 萬元，盡管 GPU 的成本較高，但其在處理并行運算，尤其是深度學習算習法方面的性能表現卓越，使得這一額外的投入成為企業無法避免的支出。

從市場占有率來看，GPU 仍然是深度學習中最受歡迎的處理器架構。目前，Nvidia 在 GPU 領網域具有較強的競争優勢和品牌影響力，但實際應用中多元化的供應商選擇依然存在。

一項調研中，參與調研的 9 家公司都選擇了 nvidia 的 GPU 作為主要方案，但 AMD 的 GPU 也得到了一些公司（C、D、H）的青睐。

值得注意的是，中國國内的華為和寒武紀也開始在 GPU 市場中嶄露頭角。其產品分别被兩家公司選擇為 GPU 供應商。在國内 AI 芯片市場，單卡 AI 芯片算力最高的是華為旗下海思的昇騰 910，在半精度下可以達到 320TFLOPS 的計算速度，與 Nvidia 的 A100PCle 版本持平。

總體來看，雖然對比海外國内芯片技術和軟體生态仍有較大差距，但諸多限制也反向加速了國内芯片廠商的成長。

能夠看到的是，随着國内對自主可控信息技術的戰略重視，政府為本土 GPU 企業發展提供了政策扶持和技術指導，鼓勵企業自主研發 GPU 技術，正不斷減少對外部供應商的依賴。

加之越來越多的本土公司在 GPU 核心技術上取得突破，通過優化設計、降低成本來提升產品競争力，同時針對國内市場的特殊需求定制化產品，從而降低用戶采購和使用的總成本。本土 GPU 企業也在加強與上下遊產業夥伴的合作，共同構建完整的生态鏈，從原材料供應、設計制造到系統集成等多個環節進行資源整合與協同創新，提高整體效率并降低成本。

總之，在 GPU 單價成本高昂的背景下，本土公司正在外部環境以及需求驅動下快速成長，盡管現在包括在接下來的幾年裡仍将與國外企業有明顯的差距，但這種差距如今伴随着内外部環境的催化正在縮小。

八、B 端，成為大模型核心主戰場

在過去的一年，大模型在 B 端雖然已有一些成功的案例，但整體上大模型在垂直領網域的定制化和實用性還處于發展階段，此外數據隐私和安全法規可能還未完全跟上技術發展步伐，企業在應用大模型時面臨合規挑戰。

更為重要的是，企業内部對新技術的認知和接受程度不一，大規模部署仍需時間培養市場信心和技術準備。相關產業鏈配套尚待完善，包括硬體算力、軟體生态、人才儲備等方面需要進一步積累和發展。

而随着技術成熟度提升，大模型技術在 2024 年預計将達到更高的成熟度，不僅模型的性能和泛化能力更強，而且在垂直領網域應用中具備更好的适應性和針對性。這使得大模型能更有效地解決 B 端業務中的復雜問題。

除此之外，随着數字化轉型的深入，B 端企業積累了大量的行業和業務數據。未來，大模型将能夠更好地利用這些數據進行深度學習和預測分析，為企業的決策優化、生產效率提高和成本控制提供強大支持。

加之，雲計算、邊緣計算等基礎設施的建設更加完善，為大模型在終端設備上的部署提供了條件，使得大模型能夠在各種業務場景下實時響應，滿足 B 端用戶對快速、準确及個性化服務的需求。

如果說 2023 年，大模型領網域還有一大批創業者們瞄準 C 端，那麼在 2024 年，B 端将成為最為核心的戰場。對雲廠商和軟體廠商而言，在單純的 C 端聲量之外，其更多的經歷也将放到 B 端的變現和落地上，以試圖将 AI 轉化為真正的成生產力。

寫在最後：

随着 AI 應用的深入，對高質量、大規模且具有代表性的訓練數據需求更為迫切。然而，獲取和清理這類數據的成本高、難度大，尤其在處理多源異構、實時流式數據時，如何确保數據的質量、完整性及實時性是持續存在的問題。

除此之外，雖然算力不斷提升，但面對日益復雜的任務場景和更精細化的應用需求，提高模型的準确率、魯棒性、效率以及減少資源消耗仍是一大挑戰。尤其是在深度學習領網域，大模型訓練成本高昂，模型壓縮與加速、微調策略等優化手段有待進一步發展和完善。

盡管 AI 技術進步迅速，但将先進技術轉化為實際產品和服務的過程中，需要考慮開發成本、維護成本、硬體成本等因素，同時還要保證商業模式可持續并產生可觀的經濟效益，這對 AI 整個市場的產品化能力和開放環境提出了考驗。

加之不同行業有着各自獨特的需求和規範，AI 技術要成功商業化，就必須深入了解和适應各行業的特點，找到切實可行的應用場景，并克服行業間的壁壘，這同樣是一個艱巨的過程。

總體而言，盡管如今伴随着 Sora 的出現，能看到的是，AI 技術已經取得了顯著進展，但在落地層面，數據難題、模型效能的極致追求，以及如何打破實現效果、成本和邊際效應的三角形難題，商業化的諸多現實問題，仍将成為 AI 大模型在 2024 年的核心探索點。

在過去的一年裡，我們看到的 MaaS、AI Agent、多模态、開源、參數比拼、行業模型……這些關鍵詞背後對應的也更是對工業世界的改變和中國產業數字化轉型的加速推動，我們也更有理由想象相信，在正在進行的 2024 年，國内大模型也将更下沉和落地，在技術上的突破之外，也會出現更多的向下的產業兼容和產業實踐案例，作為新質生產力推動產業數字化轉型的航船加速前進。