今天小編分享的互聯網經驗:清華“清醒杯”AIGC大賽冠軍「進化智能」,推出AI設計多模态模型「DesignGPT」,開啓商業化探索,歡迎閲讀。
文|沈筱
編輯|王與桐
從《太空歌劇院》,到 " 特朗普被捕 " 圖和 AI 版《流浪地球 3》" 預告片 ",AI 影像生成堪比人類作品的細膩程度和真實感,一次次刷新了人們對 AI 創造力的認知。
在一片 "AI 正威脅人類藝術家和設計師飯碗 " 的感嘆聲中,上述作品背後的 Midjourney 也順理成章地坐上了生成式 AI 影像領網域的第一把交椅。
然而,在進化智能創始人李嘉翔看來,細膩度和真實感代表的 AI 影像生成效果,僅是 AI 變革人類創意、設計領網域的必要條件之一。他認為,AI 生成影像領網域要真正產生颠覆性影響,就需要将專業設計師的能力封裝為穩定、可靠的标準產品,并達到可規模化商用的水準。
這也正是進化智能旨在達成的目标。
進化智能創立于 2022 年,是 2023 年清華 " 清醒杯 " 大模型應用創業挑戰賽冠軍、互聯網 + 清華校賽的冠軍項目。公司創始團隊由來自清華大學、中山大學、字節跳動等國内外頂尖高校以及科技企業的成員組成,具備技術研發和設計認知跨學科背景。
進化智能創始人兼 CEO 李嘉翔,碩士就讀于清華大學工業設計系,是清華特等獎學金得主,曾獲紅點、iF 等頂尖設計獎;CTO stelleris 博士就讀于中山大學,熟悉計算機視覺,影像 - 語言多模态模型等 AI 領網域主流理論和技術,在計算機視覺方向國際頂尖會議 ECCV 發表高水平論文,獲得 oral 評分 ( 全世界前 2.7% ) 。其主導的多個開源項目在 Github 上已累計獲得 1 萬 5 千 +star。
目前,進化智能已推出設計領網域的多模态模型「DesignGPT」,主要面向企業客户提供可調用的标準化模型 API 接口,同時支持包括行業、企業、產品級别的模型定制、創意和營銷方案生成等在内的 AIGC 整體解決方案交付。另外,公司将 3D 技術和 AI 結合,支持客户上傳 3D 模型進行全視角產品渲染。
據介紹,「DesignGPT」接入了大語言模型,支持用户通過自然語言對話實現設計。技術層面,DesignGPT 采用基于 LLM 的級聯模型架構,基于 Diffusion 理論構建,配合底層視覺大模型強化視覺效果。模型依托于自主研發的 HCP-Diffusion 框架,可控可編輯性高,支持 DreamArtist++、大語言模型、超分階段模型等多種先進優化算法。
和 " 拿着錘子找釘子 " 不同,進化智能成立之初即聚焦打造專業級設計 AI 大模型,為垂直行業提供系統解決方案。在產研階段,團隊就對目标客户和應用場景等有了較清晰的構思:
一是,瞄準對設計有高頻需求、高質量要求的行業,以及存在大量中小企業、生產制造產業鏈完備的行業,例如汽車、快消品、箱包、3C 家電等;
二是,同時關注企業的營銷和產品設計側需求,通過與目标行業的頭部客户合作,快速跑通業務閉環。
上述戰略方向和策略的制定,主要源于團隊成員長期以來對設計領網域的洞察和探索。
李嘉翔介紹,其早在一年前就基于 Disco Difussion 模型生成了 2000 多雙不同款式風格的球鞋設計,并帶着作品參展了 2022 年 8 月的 U 設計周。彼時 AIGC 概念還未誕生,正是從過往的經歷中,李嘉翔積累了關于當前工業設計領網域面臨的痛點的認知,并洞察到了通過 AI 進行設計創新的巨大潛力。
" 設計效率低、周期長、成本高是設計領網域長期以來面臨的問題。" 李嘉翔告訴 36 氪," 目前中國制造業在生產、制造環節的自動化和智能化水平已較高,但兩端的設計、營銷環節仍較多依賴腦力勞動,制約了產業鏈整體效率和競争力。"
過細的領網域分類也使設計師難以跨品類拓展能力邊界。李嘉翔表示,企業通常希望設計師能解決多個模塊的問題,然而,盡管設計師的核心能力是審美和市場嗅覺,其對不同品類設計美的理解是互通的,個人精力卻是有限的。
而要解決上述場景中的痛點,在進化智能看來,生成式 AI 技術正是合适的 " 錘子 ",可以将設計師能力工程化、通用化,進而推動設計業務規模化,同時打通設計和營銷環節。
DesignGPT 產品設計生成示例
基于現有研發成果,進化智能針對其瞄準的具體應用場景和旨在解決的需求痛點,構建了從數據收集、分析、篩選,到數據标注、模型設計和訓練等整個流程的算法和技術框架,包括影像智能篩選、影像自動标注、特征分解、出圖編譯器,以及底層文生圖模型等。
李嘉翔告訴 36 氪:" 要保證影像生成可控性和出圖效果,例如影像的精準性、細節豐富度、光影的合理性等,達到可商用标準,準确抽象設計師能力和通過文生圖模型穩定轉譯、高質量表達,缺一不可。" 因此,在這個過程中,設計和技術團隊的協作,以及公司與產業端的合作至關重要。
DesignGPT 效果圖對比
一方面,需要将設計師的審美、設計理解和設計推理抽象到數理邏輯層面,用可量化的标準定義人的能力,并将其固化在自動化流程和底層模型中;另一方面,需要在真實場景中與產業客户共同優化上述抽象過程和定義标準,同時校驗模型效果,對模型進行迭代。
從目前的模型表現來看,李嘉翔表示,從語義理解、元素融合、材質表現、造型能力、創意表達等多個維度,DesignGPT 都不遜色于市面主流廠商的生成效果;同時其在易用性、輸出結果穩定性、精準性等方面都有一定優勢。
DesignGPT 產品場景圖生成示例
通過進化智能的演示,36 氪發現,在易用性方面,僅需要輸入關鍵詞而無需其他贅述,其模型就能得到較為理想的產品設計圖。具體到營銷側的應用場景中,客户只需上傳十數張不同角度的產品圖,進化智能就能對新產品進行精準的模型訓練,并基于此,根據提示詞生成特定產品的宣傳圖,而并非采用摳圖、墊背景的形式。
通過 DesignGPT 文生圖實現的汽車生成
通過 DesignGPT 模型訓練實現的產品宣傳圖生成
在影像生成的精确性方面,進化智能的特色是能滿足客户對于細節修改的需求。具體到設計場景中,比如運動鞋需要拓展新的配色方案,用户可以選擇只更換鞋帶等具體部位的顏色生成效果。
但同時,李嘉翔也坦言,目前 DesignGPT 在一些細節處理方面還有待加強,比如影像中的文字生成和修改,同時在光影等效果方面還有提升空間。據透露,團隊會持續投入研發,目前正在訓練新版本模型,目的就是更好地解決上述問題。
" 訓練設計領網域的 AI 模型就像培養設計師一樣,目标是讓 AI 有能力解決設計領網域的復雜問題," 李嘉翔告訴 36 氪," 要讓 AI 學會設計,需要教會 AI 理解設計的核心。設計不僅是創造需求和滿足需求的學科,更多的是從解決問題到重新定義問題的轉變。這意味着,AI 不僅要具備解決問題的能力,還要能夠挖掘背後更深層次的需求,以及對問題進行重新定義。"
市場方面,據介紹,公司目前已累計服務數十家企業,并在近兩個月陸續開始與多個行業的頭部客户正式籤單;在設計側,應用 DesignGPT 設計的消費品即将投產,首批 AI 設計的產品将很快在市場上接受檢驗;營銷側,進化智能在早期與行業頭部客户合作共創的案例之一是,為「瑪莎拉蒂」的新車型定制了專屬模型,用于生成營銷圖,輔助其推廣宣傳。
關于中小企業是否可負擔的問題,李嘉翔表示,以營銷場景為例,相較于高端視覺攝影工作室 5 萬到 50 萬不等的價格和對應的交付周期、溝通成本,AI 出圖的性價比夠高,同時随着客户數增加,模型研發成本也呈邊際遞減。
談及 AI 是否會取代設計師,李嘉翔給出了否定的回答:" 盡管 AI 具有強大的計算和分析能力,但真正的創新設計還需要人類的直覺和情感。" 他認為,未來的設計是人機協同,AI 不僅可以參與到設計中,更可能成為創新設計的重要推動力。