今天小編分享的科技經驗:GPT-4o的多模态生圖,讓整個設計圈都開始emo了,歡迎閲讀。
GPT4o 的多模态生圖前天上線之後。
經過兩天的發酵,含金量還在不斷提升。
在我的群裏,已經能看到越來越多的,進入到實際生產環節的例子。
比如 @銀海的直接做商品圖的翻譯和合成,這是原來的算法,很難做的效果,但是現在,有手就行。
非常復雜的電商流程,一張原始圖,換產品換臉換衣服。
比如 @歸藏的直接把 UI 圖放樣機裏面的例子,如果做過 UI 或者產品設計的朋友肯定都知道,以前我們在做做展示,或者做匯報的時候,經常做樣機做的挺痛苦的。
比如給他頭像,畫的兩套表情包,是可以直接上架到微信表情商店的那種。
來自設計大佬 @付遙,用 GPT-4o 來直接做之前非常流行的 3D 品牌海報。
比如我一個很喜歡的小紅書 AI 博主 @Rico 有三貓,用 GPT-4o 給她做小紅書封面。
也用 GPT-4o 直接做商品圖翻譯出海。
群友 @默月佥在用 GPT-4o 出蜜蜂的解剖科普圖。
一個很專業的公眾号 AI 博主 @阿真 lrene,不僅用 GPT-4o 生成復雜的漫畫,還能摳圖,一鍵直出透明通道的 PNG 圖。
幹死各種摳圖軟體的不是更牛逼的摳圖軟體,而是大模型。。。
還有朋友 @不知名網友虎子哥,用 GPT-4o 給他自己家的房子裝修。。。
還有一些我确實不知道源頭的但是被傳播的蠻廣的例子(如有作者,歡迎評論區認領)。
給幾個家具做一個展示圖,這個場景在電商領網域無敵。
之前我寫可靈的 AI 模特的時候,很多人問,能不能讓模特帶首飾?現在,可以了。
還用它,直接 P 圖,消除人物。
老照片一鍵修復 + 上色。
甚至,還可以模仿字體做自體設計。
在 GPT-4o 的衝擊下,N 多的設計師和創業者,都有點 emo 了。
比如就有大佬在 X 上感嘆道:
朋友圈裏還看到了一張圖,是 glif 的老板,在 X 上發的。
紀念 ComfyUI,紀念一切的 AI 影像工作流。
OpenAI 的一次更新,又屠殺了一堆公司。
又一次深刻的闡明了那句《三體》中的經典台詞:
我消滅你,與你無關。
GPT-4o 的衝擊當然是有,但是,他的上限在哪?能做到什麼地步?真的能徹底替代 ComfyUI 的 AI 影像工作流嗎?
我想弄清楚這個答案。
首先我覺得我還是要跟大家非常簡單的用一兩句話解釋一下 ComfyUI,讓大家知道這玩意是個啥,我們才好繼續往下聊。
ComfyUI 是一個非常專業的工作流工具,不局限于 AI 繪圖,AI 視頻啥的也都可以往裏面接。他的界面大概是這樣的,很像電路板。
這個就是在 Liblib 上搭的 ComfyUI 工作流。
它是以節點方式,把各個工具、各個模型給串起來,形成一整套的工作流,比如一張圖進去,經過各種節點和插件,輸出一個完全風格不同的 AI 視頻,這都是 OK 的。
坦率的講,我不是 ComfyUI 的專家的,做過的工作流也不多,我覺得在這個領網域,我并沒有那麼強的發言權,所以。
我去請教了一下我的 1 個好朋友,AI 繪圖大神 @煉丹師忠忠。
我想聽聽,他的看法。
首先是,GPT-4o 對電商設計的衝擊到底有多大?
我跟忠忠聊了很久。
最後得到的結論,跟我自己在設計行業裏感受到的水温差不多。
對于普通水平的電商設計師,肯定是有打擊的,他們原有的技能水平也就只能產出跟 gpt4o 差不多的圖,相對來説意義不大了。
上遊的運營專員可以自己操作工具來生產一樣質量的圖。跟被衝擊的插畫師類似,可能會變為幫忙修補 gpt4o 產出的圖的 bug,還有疊加原圖部分細節上去加強細節還原(類似于高低頻修復流程)。
生產成本降低後,需求量會變大,原本用不起各種華麗背景圖包裝的商家,現在也用的起了。
從效果上極簡操作就能生圖的工具有美圖設計室等一堆工具,GPT4o 只是在某些效果方面更進一步而已,對于專業級的實際商業生產的影響可能沒有那麼大。
而從視覺設計角度,對現有的整個開源生态,反而是利好作用。
忠忠舉了自己設計的公司 IP 的例子。
現在,可以一句話把 IP 的 3D 模型,直出到品牌海報上,不需要走以前的 3D 建模 + 渲染了,大大節省了時間。
同時,更有趣的一點是,GPT-4o 可以根據一張 IP 草圖,來生成這個 IP 的各角度視圖。
而這些圖,會進一步推動 flux 等開源模型的微調版本的效果。
你可能會問,都有 GPT-4o 了,為什麼還要去微調 flux,在 ComfyUI 搭工作流用呢?這不是脱褲子放屁多此一舉呢?
其實有兩個原因。
數據隐私性和精準性。
數據隐私很好解釋,就是 GPT-4o 是一個閉源的模型,後面最多最多也就是開放一個 API,讓大家接到 ComfyUI 裏面去用,但是,就 OpenAI 這個尿性,我們給過去的東西,大概率就成他後續的訓練素材了。
舉個例子,《流浪地球 3》2027 年上映,要是現在美術組把核心概念圖或者設定圖直接灌給 GPT-4o 做一些處理,到時候,《流浪地球 3》電影還沒上映,設定圖你可以直接在 GPT-5o 裏面讓它畫出來,這特麼就炸了。。。
所以,數據隐私性至關重要,在真正的生產環境裏,特别是一些大廠裏,必須只能用本地的 ComfyUI 搭,真正的輸出,必須是本地環境,用開源的模型。
所以,這個時候,我們就可以用一些不敏感的信息,扔給 GPT-4o,來輔助生成數據集,反過來微調自己的 flux 模型,這個點,真的很有用。
精準性其實也很簡單,我們回過頭來看忠忠用 GPT-4o 輸出的自己家 IP 的海報。
先不説其他的細節了,這幾處,你是能發現一些明顯的 BUG 的。
這其實在生產環境裏,這種 BUG 是品牌方覺得不可能接受的,就想你給一個手機產品做廣告,你把人手機弄變形了,你跟人説不行 AI 出得就是這樣的,你看對面會不會把你挂在電風扇上轉着打。
而這個時候,用 Flux 專門微調的 Lora,是可以完美的解決這種精準性和一致性的問題的。
這其實就是普通設計場景和專業設計場景的區别。
GPT-4o 當然可以替代大部分的普通工作流,會讓 ComfyUI 裏一大批的工作流失去價值,但是這就不代表,ComfyUI 失去價值了。
很簡單的一點是,在專業的設計工作裏,純對話式的簡單界面滿足不了復雜專業的需求的。
就像你問一個專業設計師,為什麼設計是用 PS 做設計,而不用美圖秀秀來做設計,對方只會把你當傻子。
在真正的專業的 AI 設計工作裏,可控性,很多時候非常的重要。
需要精确的規定重繪區網域,需要精确的調節風格效果,出圖尺寸比例等,所以在專業生產中需要精确調節的細節,不能指望 OpenAI 全做成功能。
還有前後處理流程,比如説前置的裁剪,摳圖,語義識别,後置的比如對圖片的放大,貼回原圖細節(高低頻修復),再接入其他工作流繼續處理等。
自動化一鍵完成的效率要比多輪對話高很多。
包括在一些精準度要求高的產品和場景上,GPT-4o 目前還達不到專業級的水準。
看個例子。
比如我們要把問界 M9 這款車,換到另一個場景裏。車這種產品,跟筆、戒指、香水等等要求的精細度,完全不一樣。
這是 GPT-4o 出的圖。
而如果我們用大佬的牛逼工作流呢?
生成出來的效果在整體比例和質感上,是更好的。
對比應該非常直觀了。
這裏我要給自己疊個甲,我并不是在這裏鼓吹,GPT-4o 不行,ComfyUI 的效果可以吊打 GPT-4o。
如果是這樣的話,我也不會連更兩篇,來給大家看一看,GPT-4o,有多酷,有多強。
我想説的是,GPT-4o,跟當年的 SD、Midjorney、Runway、可靈等等 AI 工具是一樣的。
會無差别替代所有這個行業裏面的初級執行職位。
屠殺所有曾經在工程層面對大模型進行的一些優化。
然後,一點一點侵蝕更上層的建築。
它更像是一層層洶湧上漲的潮水,将整個 AI 影像領網域原有的邊界打得支離破碎。
都説做 AI 產品,要看到大模型的邊界,在邊界之外的安全地帶做。
但是現在,你根本不知道邊界在何方。
那些看似高聳的技術壁壘與工作流程,如果只是基于簡單組裝或者初級執行的邏輯,正在被 GPT-4o 以近乎暴力的方式消解。
絕大多數機械式的制作工作,一旦被強大的多模态理解與生成替代,就會像那些轟然倒塌的圍牆一樣,被歷史的風塵輕易覆蓋。
有沒有一種第一次工業革命時候,機器代替手工勞動的即視感?
歷史總是在不斷的重復。
可一如上文所言,這絕不代表 ComfyUI 之流就會被完全淘汰。
在工業級、專業級的深度工作流裏,人們對數據安全、設計精度、可控度的需求不可能憑空消失。
那種影像與視頻的多次處理、分層輸出、版本管理、腳本化批量運行、自動化節點銜接,只要是大型企業或核心團隊,都會很在意。
GPT-4o 會在 C 端和中小 B 端市場裏摧枯拉朽,取代了大量低端或者重復性工作。
而 ComfyUI、Flux、ControlNet 等開源生态則在更專業的領網域繼續進化,利用它們精細、可控、可離線部署的特性,為高端客户或機密項目提供服務。
這氣勢就像雲端辦公與本地辦公的關系一樣,前者無限便捷,後者安全可控。
也如同家用轎車與頂級跑車的分别,各自目标用户并不衝突。
GPT-4o 也一定會不斷進化,去擴大自己的邊界蠶食更多的場景。
開源生态也會有各種可以復刻效果的模型、產品出來,從而進行私有化。
沒什麼能夠阻止浪潮向前。
要麼成為浪潮的追随者,要麼成為浪潮的推手。
這二者,都肯定比做一塊沉在海底的礁石,要精彩得多。
你説是嗎。
來源:微信公眾号:數字生命卡茲克