今天小编分享的互联网经验:清华“清醒杯”AIGC大赛冠军「进化智能」,推出AI设计多模态模型「DesignGPT」,开启商业化探索,欢迎阅读。
文|沈筱
编辑|王与桐
从《太空歌剧院》,到 " 特朗普被捕 " 图和 AI 版《流浪地球 3》" 预告片 ",AI 影像生成堪比人类作品的细腻程度和真实感,一次次刷新了人们对 AI 创造力的认知。
在一片 "AI 正威胁人类艺术家和设计师饭碗 " 的感叹声中,上述作品背后的 Midjourney 也顺理成章地坐上了生成式 AI 影像领網域的第一把交椅。
然而,在进化智能创始人李嘉翔看来,细腻度和真实感代表的 AI 影像生成效果,仅是 AI 变革人类创意、设计领網域的必要条件之一。他认为,AI 生成影像领網域要真正产生颠覆性影响,就需要将专业设计师的能力封装为稳定、可靠的标准产品,并达到可规模化商用的水准。
这也正是进化智能旨在达成的目标。
进化智能创立于 2022 年,是 2023 年清华 " 清醒杯 " 大模型应用创业挑战赛冠军、互联网 + 清华校赛的冠军项目。公司创始团队由来自清华大学、中山大学、字节跳动等国内外顶尖高校以及科技企业的成员组成,具备技术研发和设计认知跨学科背景。
进化智能创始人兼 CEO 李嘉翔,硕士就读于清华大学工业设计系,是清华特等奖学金得主,曾获红点、iF 等顶尖设计奖;CTO stelleris 博士就读于中山大学,熟悉计算机视觉,影像 - 语言多模态模型等 AI 领網域主流理论和技术,在计算机视觉方向国际顶尖会议 ECCV 发表高水平论文,获得 oral 评分 ( 全世界前 2.7% ) 。其主导的多个开源项目在 Github 上已累计获得 1 万 5 千 +star。
目前,进化智能已推出设计领網域的多模态模型「DesignGPT」,主要面向企业客户提供可调用的标准化模型 API 接口,同时支持包括行业、企业、产品级别的模型定制、创意和营销方案生成等在内的 AIGC 整体解决方案交付。另外,公司将 3D 技术和 AI 结合,支持客户上传 3D 模型进行全视角产品渲染。
据介绍,「DesignGPT」接入了大语言模型,支持用户通过自然语言对话实现设计。技术层面,DesignGPT 采用基于 LLM 的级联模型架构,基于 Diffusion 理论构建,配合底层视觉大模型强化视觉效果。模型依托于自主研发的 HCP-Diffusion 框架,可控可编辑性高,支持 DreamArtist++、大语言模型、超分阶段模型等多种先进优化算法。
和 " 拿着锤子找钉子 " 不同,进化智能成立之初即聚焦打造专业级设计 AI 大模型,为垂直行业提供系统解决方案。在产研阶段,团队就对目标客户和应用场景等有了较清晰的构思:
一是,瞄准对设计有高频需求、高质量要求的行业,以及存在大量中小企业、生产制造产业链完备的行业,例如汽车、快消品、箱包、3C 家电等;
二是,同时关注企业的营销和产品设计侧需求,通过与目标行业的头部客户合作,快速跑通业务闭环。
上述战略方向和策略的制定,主要源于团队成员长期以来对设计领網域的洞察和探索。
李嘉翔介绍,其早在一年前就基于 Disco Difussion 模型生成了 2000 多双不同款式风格的球鞋设计,并带着作品参展了 2022 年 8 月的 U 设计周。彼时 AIGC 概念还未诞生,正是从过往的经历中,李嘉翔积累了关于当前工业设计领網域面临的痛点的认知,并洞察到了通过 AI 进行设计创新的巨大潜力。
" 设计效率低、周期长、成本高是设计领網域长期以来面临的问题。" 李嘉翔告诉 36 氪," 目前中国制造业在生产、制造环节的自动化和智能化水平已较高,但两端的设计、营销环节仍较多依赖腦力劳动,制约了产业链整体效率和竞争力。"
过细的领網域分类也使设计师难以跨品类拓展能力边界。李嘉翔表示,企业通常希望设计师能解决多个模块的问题,然而,尽管设计师的核心能力是审美和市场嗅觉,其对不同品类设计美的理解是互通的,个人精力却是有限的。
而要解决上述场景中的痛点,在进化智能看来,生成式 AI 技术正是合适的 " 锤子 ",可以将设计师能力工程化、通用化,进而推动设计业务规模化,同时打通设计和营销环节。
DesignGPT 产品设计生成示例
基于现有研发成果,进化智能针对其瞄准的具体应用场景和旨在解决的需求痛点,构建了从数据收集、分析、筛选,到数据标注、模型设计和训练等整个流程的算法和技术框架,包括影像智能筛选、影像自动标注、特征分解、出图编译器,以及底层文生图模型等。
李嘉翔告诉 36 氪:" 要保证影像生成可控性和出图效果,例如影像的精准性、细节丰富度、光影的合理性等,达到可商用标准,准确抽象设计师能力和通过文生图模型稳定转译、高质量表达,缺一不可。" 因此,在这个过程中,设计和技术团队的协作,以及公司与产业端的合作至关重要。
DesignGPT 效果图对比
一方面,需要将设计师的审美、设计理解和设计推理抽象到数理逻辑层面,用可量化的标准定义人的能力,并将其固化在自动化流程和底层模型中;另一方面,需要在真实场景中与产业客户共同优化上述抽象过程和定义标准,同时校验模型效果,对模型进行迭代。
从目前的模型表现来看,李嘉翔表示,从语义理解、元素融合、材质表现、造型能力、创意表达等多个维度,DesignGPT 都不逊色于市面主流厂商的生成效果;同时其在易用性、输出结果稳定性、精准性等方面都有一定优势。
DesignGPT 产品场景图生成示例
通过进化智能的演示,36 氪发现,在易用性方面,仅需要输入关键词而无需其他赘述,其模型就能得到较为理想的产品设计图。具体到营销侧的应用场景中,客户只需上传十数张不同角度的产品图,进化智能就能对新产品进行精准的模型训练,并基于此,根据提示词生成特定产品的宣传图,而并非采用抠图、垫背景的形式。
通过 DesignGPT 文生图实现的汽车生成
通过 DesignGPT 模型训练实现的产品宣传图生成
在影像生成的精确性方面,进化智能的特色是能满足客户对于细节修改的需求。具体到设计场景中,比如运动鞋需要拓展新的配色方案,用户可以选择只更换鞋带等具体部位的颜色生成效果。
但同时,李嘉翔也坦言,目前 DesignGPT 在一些细节处理方面还有待加强,比如影像中的文字生成和修改,同时在光影等效果方面还有提升空间。据透露,团队会持续投入研发,目前正在训练新版本模型,目的就是更好地解决上述问题。
" 训练设计领網域的 AI 模型就像培养设计师一样,目标是让 AI 有能力解决设计领網域的复杂问题," 李嘉翔告诉 36 氪," 要让 AI 学会设计,需要教会 AI 理解设计的核心。设计不仅是创造需求和满足需求的学科,更多的是从解决问题到重新定义问题的转变。这意味着,AI 不仅要具备解决问题的能力,还要能够挖掘背后更深层次的需求,以及对问题进行重新定义。"
市场方面,据介绍,公司目前已累计服务数十家企业,并在近两个月陆续开始与多个行业的头部客户正式签单;在设计侧,应用 DesignGPT 设计的消费品即将投产,首批 AI 设计的产品将很快在市场上接受检验;营销侧,进化智能在早期与行业头部客户合作共创的案例之一是,为「玛莎拉蒂」的新车型定制了专属模型,用于生成营销图,辅助其推广宣传。
关于中小企业是否可负担的问题,李嘉翔表示,以营销场景为例,相较于高端视觉摄影工作室 5 万到 50 万不等的价格和对应的交付周期、沟通成本,AI 出图的性价比够高,同时随着客户数增加,模型研发成本也呈边际递减。
谈及 AI 是否会取代设计师,李嘉翔给出了否定的回答:" 尽管 AI 具有强大的计算和分析能力,但真正的创新设计还需要人类的直觉和情感。" 他认为,未来的设计是人机协同,AI 不仅可以参与到设计中,更可能成为创新设计的重要推动力。