大模型+影像：智能手機“上春山”

今天小編分享的科學經驗：大模型+影像：智能手機“上春山”，歡迎閲讀。

這個春節假期，一首《上春山》火了。吃瓜群眾熱熱鬧鬧學了一個假期的 " 春山學 "，了解了搶占 C 位的各種技巧。

假期過去，開工大吉，手機行業開始搶占今年的 C 位。那麼問題來了，今年智能手機最大的機會點在哪裏？答案呼之欲出，當然是 AI 大模型。去年下半年，手機廠商陸續推出端側大模型。春節剛過，OPPO 發布了全新的 AI 戰略，宣布進入 AI 時代。魅族宣布不再生產 " 傳統智能機 "，全面擁抱 AI 時代。顯然，大模型就是手機行業的那座 " 春山 "。

但根據 " 春山學 " 相關知識，跟着大家一起上山是不夠的，必須更上一層才能穩站 C 位。在大模型 + 手機的眾多結合點中，有一項能力是 C 位中的 C 位，妥妥的 " 真 · 春山無雙 " ——大模型 + 手機影像。

據説在這個春節，一線城市的寫真店紛紛轉變了商業模式。原本大家都是去拍寫真，店家負責拍攝和修圖。現在都是去拍 AIGC 照片，店家搖身一變為 AI 提示工程師，用各種 AIGC 平台來實現用户種種匪夷所思的需求。

回來對比照片，也不是比你這張光打得不錯，你這張 P 得更自然，而是你這張照片用的什麼提示詞，你這張一看就模型泛化性比較強……

總之，AI 之風正經由照相館、寫真店、小程式、APP，強烈地吹拂着我們的影像生活。

但是問題來了，這些強烈的 AIGC 影像需求，真的必須去線下店才能完成嗎？為什麼不能在手機端一鍵搞定？最近手機新品動辄搭載幾十億參數的端側大模型，它們閒着幹嘛呢？

事實上，手機裏的大模型肯定是閒不住的。目前擁抱 AI 大模型的手機，基本情況是大模型是大模型，影像是影像，但這種分裂局面必然會很快得到改變。

" 大模型與移動影像 " 的融合賽道，是 2024 年智能手機行業最為清晰的風口，也是手機廠商急切想要上，也必須上了就不能下來的，具有戰略意義的那座 " 春山 "。

大模型 + 手機影像，這座春山怎麼上？我們來弄清其中的 " 春山學 " 問題吧。

六年之後

AI 影像再上山

首先我們需要明确一點，那就是 AI+ 影像絕不是什麼新鮮事物，甚至很多人都已經習慣了 AI 與影像的結合。

這個概念開始受到業界重視，是早在 2018 年的時候。那一年 4 月，華為發布了 P20 手機。這款手機利用麒麟芯片的 NPU 端側算力，首次在拍照中搭載了 AI 功能，能夠識别包括寵物、人像、風景、美食等 19 種場景，覆蓋 500 多個識别目标。在 AI 識别這些目标物後，會自動調整攝影模式和參數設定。

随後，這種 AI 攝影模式一度爆火，成為當時最具熱度的手機技術更新，并且逐漸為全行業所接受。随着幾年發展，AI 影像變得越來越復雜，可識别物越來越多，并且加入了動态抓取、去除反光等 AI 能力，還與此後流行的計算攝影概念結合，成為手機影像系統中的基礎能力之一。

但到這個層面，AI 攝影的能力依舊有顯著的局限性。它對圖片的作用集中于 " 美化 "，而不是 " 修改 " 和 " 生成 "。我們也探訪過一些 AI 攝影相關賽道的開發者，他們很希望能夠利用手機的 AI 能力做出更具創意的應用，但端側算力和模型能力是主要的限制。

而伴随着 AI 大模型的爆火，模型能力的關隘被突破了。在大模型的加持下，用户可以對影像系統提出復雜的指令，影像系統也能夠更完整理解用户互動邏輯與意圖指向。在能力上，大模型可以幫助完成高精度的影像元素替換，甚至加入 AI 生成的影像。

或許可以這樣説，最初用户聽聞 AI 影像概念的時候，腦海中設想的影像能力，其實是在今天才有可能實現的大模型影像。

伴随着大模型能力落地手機，AI 影像終于可以完成關鍵一躍，實現那些早就許下的諾言。

大模型，就是 AI 影像的必須上的那座山。

春山上，風景如何？

春節還沒過去，世界就感受到了來自 Sora 的視覺震撼。AI 行業有句話，叫語言模型為打榜，視覺模型能賺錢。機器視覺能力是讓用户感受到 AI 魅力最快速也最有效的方案。

長期以來，手機影像可謂一卷再卷，卷無可卷，但用户始終能做的只是拍攝圖片。AI 大模型能力的加入，可以讓用户獲得無門檻修改圖片，以及将 AIGC 影像與手機拍攝影像結合的能力。AI 大模型 + 手機 AI 計算能力 + 手機影像系統的組合，極大拓展了手機影像的邊界，既繼承了手機廠商多年來的技術與供應鏈布局，同時還獲得了新的增長空間。

目前階段，這條賽道已經迅速鋪開。比如三星就通過圖片助手功能，讓用户實現了移動圖片中目标，自動填充空缺，生成新圖片的能力，從而讓手機影像具備更大的構圖自由。

而 OPPO Find X7 系列則實現了通過 AI 大模型來提供 AIGC 消除功能。就像我們最近在廣告裏看到的那樣，用户可以把春節聚會時不想看到的人從合影中消除，同時依靠 AIGC 補齊背景。目前，Find X7 已經可以支持最多 6 個主體單獨提取。除此之外，OPPO 還更新了 AI 超清合影功能，可以智能識别并增強合影中人臉的清晰度。

可以預見的是，接下來我們會看到大量基于 AI 大模型實現的影像功能，比如 AI 摳圖，AI 替換，AI 擴圖等。整體而言，大模型 + 手機影像會呈現三大發展趨勢：

1.AIGC 内容與拍攝内容結合。AIGC 的文生圖平台，在過去一年快速赢得了用户青睐，将這種能力與手機本身影像能力融合，是 AI 手機賽道上最關鍵的争奪戰。

2.AI 能力從應用側上移，與手機本身的影像系統結合。目前，AI 大模型帶來的視覺能力，更多還是單獨的軟體應用。接下來，手機廠商會将這些能力上移到系統側，成為產品本身的差異化賣點。

3. 手機影像能力可以 OTA。AI 大模型的加入，一定程度上讓手機自身的影像能力成為可更新，可迭代的軟體。讓手機自身的系統級能力也可以持續更新，持續運營，是 AI 大模型帶給手機的一種新變化。

總體來看，大模型與手機影像的結合，有着非常充沛的創意發揮空間，有源源不斷的可能性。想要抓住這個機會，客觀上将帶來手機廠商之間新一輪的技術競賽。

那座山

就是下一個戰略高地

目前階段，還沒有廠商将 " 大模型 + 影像 " 這個概念旗幟鮮明地提出來，但這個概念以各種不同的名稱落地，應該已經為期不遠。

需要注意的是，在端側部署大模型，以及發展出一些創意性的 AI 影像玩法都很容易，但要将 AI 大模型 + 影像真正發展為長期賽道，構成品牌的用户心智支點，那還需要廠商投入巨大的精力，來展開一場全新的智能手機行業競賽。

其原因在于，大模型 + 手機影像是一場名副其實的綜合考驗。它需要硬體側的算力配合，需要影像系統的支撐，同時也需要模型側的算法加持，更需要應用開發創意以及 AIGC 專屬的視覺審美。從務實到務虛，從底層硬體到頂層應用，大模型 + 手機影像的競賽近乎覆蓋了手機行業的每個層級。

而重點來看，搶占大模型 + 影像的戰略高地，需要手機廠商在三個方面集結重兵：

1.AI 基礎設施更新。這個基礎設施包括了 AI 算力與 AI 算法兩個部分。涉及芯片能力，端雲協同能力，以及基礎算法能力。手機的 AI 基礎設施更新需求，也将帶動產業鏈展開新一輪洗牌。

2.AI 應用的準确把握。AI 大模型能夠手機影像帶來的可能性不是太少，而是太多了。如何在有限的算力條件下，給用户最準确，最吸引人的 AI 影像應用，将成為手機廠商面對的頭一道考題。

3.AI 審美能力的建設。最近很多人注意到 Sora 團隊有專門的藝術人才加入。藝術與審美能力在 AIGC 時代非常重要。随着產業發展，算法能力會趨同，審美能力的差異化則會暴露出來。手機廠商過去更重視的是設計能力，這與藝術表達、審美判斷等能力是存在一定差異的。構建屬于 AI 手機的新審美能力，是一項全新的賽事。

最後，説一個有點反常識的判斷：大模型 + 手機影像這座 " 春山 "，其實還是很容易上的。其門檻遠沒有手機廠商宣傳得那麼誇張，但如果你最近用心學習了 " 春山學 " 教材，就會知道真正困難的不是上山，而是賴在山上不下來。

如何把大模型 + 手機影像從一個年度噱頭，變成可以多年發展的長期賽道，甚至變成改寫產業格局的錨點，那才是真正的考驗。

不過好消息是，有春山可上至少證明了一件事：包裹手機行業的堅冰正在技術暖風的吹拂下開裂、消融。能否就此别冬入春，選擇權在從業者手中。