今天小編分享的科技經驗:AI 在移動影像領網域,搞了場「無聲變革」,歡迎閱讀。
張磊,70 後,羅俊,80 後,兩位早已超過 35 歲門檻的男士,眼神帶着工作的疲憊,但身上卻沒有流出「中年焦慮」,反而更像剛畢業的學生一般充滿了幹勁。
張磊是 AI 算法大牛,香港理工大學講座教授,在深圳帶着一個有 30 多号人的實驗室,琢磨着如何通過 AI 讓手機影像更強。羅俊是他的搭檔,任職 OPPO 影像算法總監,頂在前面,拆解各種需求,并把算法工程化,裝到手機裡。
在 OPPO 前海辦公樓裡,剛認識張磊不久,羅俊就意識到他是一個從學校裡走出來的大牛,身上充滿學術氣息,他團隊的不少人也都是門下學生,工作氛圍與公司其它部門有些不同,但它更有凝聚力。
不過,對于具體的手機影像鏈路和成像等工程方面,張磊團隊欠缺實戰經驗。他的團隊強項在 AI,是底層視覺技術和理論的專家。羅俊則從索尼公司開始,已積累了 20 年影像工程經驗。
小概率下,兩個學識、技能互補的人聚在了一起,在 OPPO 公司攜手做一件行業内幾乎是從 0 到 1 的事:用 AI,把手機影像再做一遍。
「60 倍」的高難度開局
2022 年,張磊加入 OPPO。這一年底,ChatGPT 橫空出世,掀起新風雲,代表着 AI 從卷積神經網絡向 Transformer 架構的代際跨越,孕育出各種可能。
對于手機端,AI 大模型如何裝到小的手機裡?更重要的是,AI 大模型能否真的可以幫助手機小尺寸的光學硬體「逆天改命」?這裡隐約藏着變革機會。很多手機公司都在琢磨下一步的變化。OPPO 影像算法總監羅俊,對算法競争力負責,「大模型對手機影像的影響比預判提前了兩年」。
兩人的第一場 AI 戰役,趕上了 OPPO 的 Find X6 項目。通過這個項目,張磊和羅俊初步嘗試了用 AI 模型,來處理傳統的降噪超分計算,并且用 AI 的方式來替換傳統的色彩重建過程。這是對移動影像計算架構的一次革新,用先進的 AI 計算方法,替換了手機中存在十幾年的 ISP 計算方式。在傳統 ISP 計算對降噪和色彩重建已經達到了極限的現在,OPPO 用 AI 計算開拓出了計算影像的新可能。
小試牛刀 AI 之後,他們決定探索長焦,嘗試 AI 大模型。用大模型把 60 倍手機拍攝的模糊照片變清晰,就是一項突破(這個項目後來被稱作 AI 千裡長焦)。張磊和羅俊知道,對于手機有限的尺寸來說,他們永遠不可能要求一顆能夠直接拍攝出 60 倍的光學鏡頭。即使對于 Find X8 Ultra 這樣最前沿的手機,6 倍的鏡頭已經是最長的距離極限。而大模型和光學的結合,甚至是對光學物理規則極限的改寫。這讓他們無比興奮。
前提是代碼寫出來,算法跑通,成熟後再工程化落地,投到市場。
大模型「賽馬」
執行任務落到張磊團隊身上,成與敗,關系到張磊的顏面,更關系到 OPPO 在影像業内的競争力。
張磊讓團隊分頭行頭,利用生成式擴散大模型嘗試不同的技術路徑。
其中一個方案被稱為 CCSR,迭代頻數需要 50 步,後面不斷優化,經過兩個月迭代,降到 15 步,最終降到 3 步,已達到極限。
另一個方案,則被稱為 SeeSR。雖然迭代步數略微少,可是輸出影像穩定性不如 CCSR。只有減少步數,才可以減少手機能耗,縮短拍照成像時間。
有了初步算法,想試試效果。「最早拿算法效果給手機影像相關的部門的人看,跑完了,大家發現畫質幾乎沒有提升。」但随着算法的演進,生成式大模型的優勢逐漸體現,CCSR 達到了預期的效果。
根據項目進程,部署時間挺緊張。大家商量 CCSR 改到極限後,部署同事先着手工程化落地。這已經到了 2024 年 3 月中旬,離 10 月份產品上市只有半年時間。
但 AI 技術進化的頻率,還是超出了大家的預料。
有一天,張磊團隊看到在影像生成領網域用 diffusion 做到單步生成也有不錯的效果,這或許也同樣可以讓影像復原的多步迭代步數減少。在團隊嘗試做出第一版結果後,張磊頗為興奮:推理只用了單步,優點明顯。随後,張磊猜想另一位同學研究的「文生 3D」使用的分數蒸餾(score distillation)方法,可以加進來。
趕工幾周,算法逐漸成型,最後取名 OSEDiff(單步復原)。4 月中旬,大家着手整理實驗和寫文章,經過團隊一起一個月的努力,文章寫好投到業内頂會 NeurIPS 上。手機界領先蘋果和三星、首創的大模型復原 60 倍長焦影像項目,自此有了算法雛形。
過了一段時間,張磊組織了一次盲選會,準備了 100 張圖,分别由單步 OSEDiff 算法和 CCSR 復原而成,發給了認知組、測試組、影像算法組、產品線等各個條線成員,讓他們挑選質量更好的照片。單步算法完勝。OPPO 決定「高速路上換發動機」,在項目進度已經基本達到極限的情況下,毅然決定切換更優質的單步算法。
千裡長焦項目在 2024 年 10 月發布的 Find X8 上面第一次成功落地,它應用生成式大模型,可以讓 60 倍數碼變焦拍攝的模糊影像,經過 2 秒鍾本地運算後變得異常清晰;又在 2025 年 4 月 2 日發布的 LUMO 凝光影像系統中,脫胎換骨似地更新,把 60 倍甚至 30 倍變焦的效果都大大提升,就像給手機鏡頭又戴了一幅「AI 望遠鏡」。張磊與羅俊完成了蘋果和其它安卓廠商都沒有實現的行業首創。
沒有先例的困局
做出千裡長焦,張磊和羅俊不滿足,雖然這項技術展示了超強的 AI 能力,但「只能算 OPPO 的一個階段性成果」,真正能讓 AI 展示實力、向行業證明 OPPO 的 AI 能力,搭載在 OPPO 全新推出的 LUMO 凝光影像系統,以及搭載這個系統的 Find X8 Ultra 上,裡面有 AI 征服手機影像「紐北賽道」的一場新賽事。
設想在夜晚的重慶洪崖洞前,光線錯綜復雜,遠處有各種霓虹燈光,近景有人臉,背對着暗處——夜景人像曾經是很多手機影像工程師的噩夢。興許 AI 加持,才可以有所突破。
不過,羅俊知道内中難處,首先是數據。沒有數據的供給,再力大無窮的 AI,也會力不從心。
一方面,夜間光線稀薄,即使對于手機中最大的鏡頭來說,采集到的光線數據都不富裕,AI 只能反復利用有限的數據,推理出該有的純淨畫面,但結果往往令人失望。另一方面,夜間光線又過于復雜,特别是中國城市 LED 燈光近年來的高速發展,即使對于造價十幾萬的大塊頭的相機來說,将五光十色的城市夜景和人物同時拍出彩,也不是一件可以輕而易舉完成的事情。
第一個問題,相對還算好解決,因為有既定的案例——相機代表的光學規律,就是答案。提升進光量,提升光源的品質,喂給傳感器更多、更優質的數據,這意味着下血本地增加光學模組的性能——簡單點說,就是用更大的鏡頭來吸收更多的光線數據,用更好的鏡頭把光學提純,用更大尺寸的傳感器去接收消化這些數據。「算法不能脫離光學,所以 OPPO 一直講軟硬結合,硬體決定了畫質的下限,算法決定了畫質上限。」羅俊一直強調。
在 LUMO 凝光影像中,OPPO 拿出了一顆全新的 70mm 焦段的人像主攝。這顆攝像頭的進光量達到了前代產品的 150%,成為同級别中進光量數一數二的「大塊頭」。不僅如此,為了更優質的光源數據,羅俊的戰友——光學團隊,甚至「發明」了一種全新分子結構的玻璃材料,對紅外光這種「雜質」的過濾性甚至比傳統最好的一種玻璃材質還要高 81%,就為了給到 AI 更優質的原始數據。
但第二個問題,夜間光線過于復雜的帶來的影響,即使在相機超過 100 多年的歷史中,也找不到答案。
在相機還統治攝影的上個世紀,城市夜晚的人造光源,基本只有白熾燈和熒光燈兩種類型。而進入 21 世紀,LED 迅速成為光源的主力軍,甚至淘汰了前面的兩種光源。
LED 光源色彩是多種多樣的:暖黃的路燈(約 2700K)、冷白的建築照明(5000K-6500K)、霓虹廣告的彩色光(RGB 混合)可能同時存在。
傳統相機的全局色溫算法(基于單一白平衡預設或自動檢測場景主光源)無法精準适配多區網域色溫差異,直接導致照片的局部色偏,也就是畫面中不同區網域因光源色溫差異呈現割裂的效果,最典型的是在進行夜景人像拍攝時,人物的膚色會被多重色溫的光源嚴重「染色」。
羅俊和他的同事們,最開始也考慮過使用 AI 技術對畫面不同的區網域進行理解和分割處理,但缺少原始的色溫信息的數據,AI 模型也無能為力。
「不得不去發明一個新的攝像頭,來給 AI 提供更精準的色溫數據。」這就是在即将發布的 Find X8 Ultra 上,多出的一個攝像頭——丹霞原彩鏡頭。它第一次能夠對畫面中的色溫信息進行空間區網域的分割,分别采集各個光源區網域中的色溫,這意味着後端等待的 AI,第一次對夜晚的光色,有了精準的數據源。對于羅俊來說,更精準的數據,讓 AI,第一次在色彩這件事上有了大展拳腳的空間。
然而,被數據喂飽的 AI,又遇到了無法解決的新難題。即使 AI 已經因為丹霞原彩鏡頭,可以看透夜色的本質,可以将夜色和人物的膚色準确還原,但依然無法看透用戶的心。
科學家不懂藝術家
就在張磊加入 OPPO 的第二年,為了讓影像技術的角逐,回歸攝影的審美,統一照片審美認知,OPPO 專門從一些美術學院、攝像協會挖來了一些攝影專家,成立了一個影像認知組,對好的效果給出定義。
「關于效果的文字性描述,很難量化,無法确定客觀标準。」藝術圈與工程界跨圈層對話,中間隔着多少詞語與定義的暗礁,誰也說不清。張磊感嘆,「有時候,我盯着兩張圖片看,硬是找不到區别。」
羅俊同樣感受到的 AI 算法疊加的困難:「算法是一個黑盒,一些照片輸入進去,誰也不知道它會輸出什麼。而有時這些效果調好了,另外一些效果就因為互斥而出錯。」
2024 年 4 月份以來,張磊與羅俊持續與認知組一起對齊标準。羅俊說,這項工作各廠家都在探索階段,以前從來沒有人做過,也就沒有工程标準化流程(SOP),甚至連采集多大量的數據集算夠,都沒有人能說清楚。
而且諸多工作又多了一個核準維度。2024 年初,OPPO CEO 陳明永在内部發起了一項組織變革,「深入一線,創造價值」,所有的工作都要到第一前線去面向用戶創造價值,反映到影像上面,調教出來的拍照,特别是人像照片,要以用戶喜愛為牽引線,同時還要有 OPPO 自身影像追求。
這讓科學家張磊感受到一個不大不小的挑戰。比如,前一段時間用戶受互聯網平台影響,熱衷于擺拍,過了一段時間,風潮陡變,年輕人又喜歡上轉着圈抓拍。不要小看這一變動,它對影像 AI 算法的調教影響幾乎是全方位的。
但好在,幾個團隊在不到一年的時間裡,迅速解決了主觀和客觀評價不容易的問題。為此,OPPO 甚至全新開發出了一個評價體系的軟體。通過這個軟體,負責審美的認知同事,可以将用戶的輸入意見,以及經典攝影審美的案例,轉化成客觀的數據,交給技術人員來進行客觀化地技術調整。比如對于 OPPO 凝光影像對夜景人像膚色的調整,其中包含了丹霞原彩鏡頭提供的技術上絕對準确的信息,也包括了認知審美對于亞洲各種膚色的研究,甚至還會包括與美妝機構聯合研究的一些人因相關的因子。
有了多次的錘煉,張磊和羅俊們已經習慣摸索着進前。一遍遍嘗試後,AI 算法成像逐步穩定下來,他們有信心在 4 月份發布的全新 Find X8 系列上推出來,接受用戶檢閱。
理想,不過時
回首三年多死嗑 AI 影像的過程,張磊有些感慨,教授「再就業工程」在一系列偶然與必然的碰撞之後,逐漸走上正軌。如果沒有 OPPO 公司一再地堅持抛橄榄枝,沒有 OPPO 對影像的執念,沒有羅俊搭建起學術探索與工程實現之間的橋梁,沒有 Y Lab 實驗室裡年輕的博士生們不知疲倦的探索……這裡面缺了任何一環,他都可能铩羽而歸,回到校園。
2018 年,通過中間人介紹,OPPO 副總裁劉暢找到張磊,邀請加入。OPPO 在技術研發的投入上雄心勃勃,有一系列研發上的大手筆蓄勢待發,渴望頂尖人才加盟。
不過,劉暢來遲了,張磊當時已基本确定去一家華東的互聯網大公司。劉暢叫上 OPPO CEO 陳明永,一起請張磊在深圳吃了一頓飯。陳明永給張磊留下了平易近人、務實的印象,「沒有大老板架子」。
此後,劉暢一直和張磊保持着聯系,出差到對方城市,會留出專門時間拜訪。在延攬張磊一事上,劉暢把 OPPO 公司「堅持做正确的事」和「長期主義」信條發揮到極致。沒有他的堅持,不會有張磊加入 OPPO。
三年過後,張磊打算換平台。跟了三年多的劉暢是他的第一選擇,「我信任他」,張磊說:「劉暢是一個非常值得信任的人,我相信到 OPPO 可以實現我手機影像的理想」。
行業内,大家知道 OPPO 在影像上有相當多積累。2012 年,OPPO 第一次為手機上帶來堆棧式傳感器,極大提升手機傳感器感光能力,讓手機在暗光環境拍照成為可能。2016 年,OPPO 創造性地提出了四合一像素聚合技術,這甚至奠定了現在所有手機傳感器像素使用的規則,讓手機能拍出高品質夜景照片。
2017 年巴塞羅那的 MWC 盛會上,OPPO 拿出了世界上第一個潛望式長焦攝像頭,這甚至颠覆了全球各大科技品牌和媒體記者的認知。當時的羅俊甚至沒怎麼聽說過 OPPO 這個品牌。當他看到那顆潛望長焦攝像頭後,覺得移動影像大有乾坤。
「我想,這也是打動張磊最重要原因」,劉暢認為,「牛人更看重舞台,更在意能否實現理想。」
* 頭圖來源:OPPO