今天小編分享的科技經驗:“吉卜力風”免費版來了!豆包這款AI生圖神器,不比GPT弱?,歡迎閲讀。
最近兩周," 吉卜力畫風 " 突然就火了。
事情的開始是這樣的,3 月 26 日,OpenAI 推出了基于 GPT-4o 多模态大模型的高精度影像生成功能"4o Image Generation",按照他們的説法,現在用户只需一句簡單的文字描述,就能實現精美的廣告或平面圖的制作、應用界面的 UI 設計、LOGO 或圖片風格的切換等等。
結果呢?整個互聯網的人,都在用它變身 " 賽博宮崎駿 "。
不開玩笑,小雷是真被這玩意給刷屏了,這兩天一打開群聊,就能看到無法無天的群友們在拿 GPT-4o 瘋狂整活,有做頭像的,有做表情包的,甚至還有把 " 黃 O 大道東 " 變成吉卜力畫風的,推特上的國外網友玩得更是樂此不疲,看得我都有點心癢癢的。
(圖源:X)
幸好,類似的功能,國内大模型并不是沒有。
比如説字節跳動的 SeedEdit,同樣可以實現 " 自然語意修圖 ",用户只需輸入簡單的自然語言,便可對影像進行多樣化編輯操作。
最重要的是,這功能可不需要你想方設法翻出去用,在字節跳動的豆包官網就直接能用,而且目前豆包的 " 影像生成 " 功能是完全免費且不存在限制的,這一波甚至能把開會員的錢也給直接省下來。
話不説多,我們這邊直接開整!
想體驗這個功能的話,其實還蠻簡單的就是了。
打開豆包網頁版,在輸入框下面就有「圖片生成」,應該就能看到上傳參考圖的選項了,這裏就是 SeedEdit 模型的入口。
要做的事情很簡單,上傳圖片,然後輸入我們想要改變的内容。
(圖源:雷科技)
話不多説,先來看圖。
首先,小雷這邊選用了一張來自知名音樂錄像帶裏的截圖,讓豆包和最近巨火的 GPT-4o 都試着" 幫我換成吉卜力風格 "。
這是原圖:
(圖源:Youtube)
這是豆包的成品:
(圖源:豆包)
這是 GPT-4o 的成品:
(圖源:GPT)
對比下來,GPT-4o 的衣服還原度更高,手部沒有變形,只是沒有維持原圖比例;豆包雖然整體構圖、配色更加貼近原圖,但是衣服有些微變化,手部有些變形,甚至多了一只抓着麥克風的手。
接着試一下大家都關心的名人,比如説馬斯克:
比方説喬布斯:
再給喬布斯換個迪士尼風格:
從結果來看,豆包的轉換效果可以説是非常成熟。
最後,我們試一試影視劇集裏的名場面,這次就拿《和平使者》裏面約翰 · 塞納飾演的克裏斯多福 · 史密斯的名場面做例子:
(原圖,圖源:HBO Max)
這次差距其實更加明顯一些,GPT-4o 甚至把金屬頭盔保留了下來,身邊的兩名角色也做到了精準的畫風轉制,但是圖片比例有所修改,文字信息也沒有保留下來。
作為對比,豆包則是試圖在整幅畫面上進行對齊,然而人數一多起來,角色的服裝和樣子就沒多少能對上的。
但是,接着我就要説但是了,豆包的效果還是比 Gemini 2.0 要強上一大截的,谷歌這玩意雖然支持自然語意修圖,但是既不懂吉卜力風格是啥意思,也搞不清楚怎麼修改圖片比例。
(圖源:Gemini 2.0)
可惡的谷歌,不要給我看這一堆不知所謂的東西!
其實把思路反過來,把畫改成真實風格,豆包搞得也不錯,我上傳了一張刻在不少人基因裏的 Meme 圖片,讓它以此為原型,生成一張真實照片。
嗯 ... 只能説像是挺像的,就是沒了那種衝擊感。
如果再簡單調整一下的話,就能做出下面這種效果:
雖説臉型有點不對,笑得也是有點猙獰,但是這種打破次元壁的做法,還真就只有 AI 大模型能夠實現。
不過,人人都在用吉卜力畫風,也帶來了新一輪的版權問題。
畢竟早在 2016 年,宮崎駿評價 AI 動畫技術時就直言:這是對生命本身的侮辱。
宮崎駿反對用技術代替手工創作,他認為 AI 生成影像缺乏對生命力的敬畏,而在 2025 年的今天,技術力的進步,反而讓大家對這件事情變得更肆無忌憚了起來,确實是有點諷刺的。
既然如此,我們不妨轉換一下思路,把它當成 PS 來用?
比如在設計行業裏源遠流長的梗," 讓大象轉個身 " 這種要求,我們在豆包上能不能實現呢?
答案是" 完全可以,輕易可以 "。
可以看到,SeedEdit 生成的大象背面是非常合乎邏輯的,耳朵的形狀、腳部的位置、身體的顏色都做得相當不錯,周圍的環境也保持了高度的一致,很難看出畫面上有什麼破綻。
不過類似海報的效果,豆包就做得不咋樣了,和 GPT-4o 可以説一眼就能看出差别了。
只能説,豆包在審美這塊,還真有挺多要學的地方。
最後,我也試了一下豆包憑空進行 " 圖片生成 " 的效果。
提示詞如下:
一位年輕的印度女性,黑發扎着敞開的馬尾辮,身穿黑色夾克,站在大學校園裏,直視着鏡頭。該影像具有 1990 年代風格的電影靜态美學,在陽光明媚的日子裏拍下的特寫肖像。
對比豆包,GPT-4o 產出的圖更有特寫感;Midjourney V7 產出的圖片光線更加自然,人物臉部的膚色也相對更加清晰,細節更加豐富,畫面焦點更加清晰,但總的來説,三者都沒啥肉眼可見的問題。
不可否認,如今 AI 大模型在 " 繪畫 " 上足以獨當一面了。
但是在影像編輯領網域,AI 大模型依然是相對落後的,無法進行精準編輯一直是行業的老大難問題。
前些年,這類需求一般可以通過 Stable Diffusion 的 ControlNet 插件來實現。
它可以獲取額外的輸入影像,通過不同的預處理器轉換為控制圖,進而作為 Stable Diffusion 擴散的額外條件,只需使用文本提示詞,就可以在保持影像主體特征的前提下任意修改影像細節。
(圖源:新浪微博,識别特征并進行重新繪制)
然而本地部署 AI 應用這事,和大部分小白是基本無緣的。
所以在進入今年後,包括 GPT-4o、Gemini 2、Midjourney V7 等先後上線了通過自然語意修圖的功能。
個人認為,這種只需給定輸入影像和告訴模型要做什麼的文本描述,然後模型就能遵循描述指令來編輯影像的功能,甚至可以被視為重大突破,曾經被視為必備技能的 PS,如今似乎陷入了 " 可學可不學 " 的微妙處境。
當然了,目前這類模型在生成圖片時還是有一些問題存在的。
直到今天,豆包 AI 修圖依然缺乏人像前後的一致性,也缺乏圖片内容的方向性,只要涉及到人物面部的修圖,那麼最終出來的影像和原圖的差異會很誇張,豆包本身也很難判斷你要修改的是圖片裏的哪個元素。
倒是文字處理能力,相較以往有了一定提升,現在 SeedEdit 在修圖時已經不會随便編造文字内容,但是圖片生成時的錯字現象依然需要改善。
不管怎麼説,豆包 SeedEdit 算是彌補了國產大模型在語義 AI 修圖應用這塊的空白。
可以預見的是,随着 AI 影像編輯技術的不斷發展,未來手機、電腦都可能會集成這項功能,就像 AI 消除、AI 擴圖那樣走進尋常百姓家。無論是小白還是大咖,每個人都有機會輕松上手使用,讓自己對美的理解可以更直觀地展現出來。
修圖有手就行?或許真的不是夢。