今天小编分享的互联网经验:美图大模型,如何让AI更懂“美学”?,欢迎阅读。
试想下,未来你要做一个产品评测视频,但距离交稿日期只有两天。而你完全没有创作思路,一笔没动,但你却一点不着急,慢条斯理地用让小白直接在手机中简单操作开拍 APP,根据产品外观,输入提示器来智能生成口播脚本文案,之后再利用有 " 全链路 " 解决视频创作的 WHEE 平台根据提示器,生成脚本文案截图作为场景展示交给客户。
客户审核通过后,利用 AI 数字人工具 DreamAvatar 来生成虚拟主播,并再次使用开拍 APP 进行视频口播拍摄,这时候已经过了一天,产品外观没拍一张,于是你利用美图设计室 2.0X-Design 来先进行 AI 智能抠图,再使用 AI 作图来制作出一张融合进背景的产品外观图,之后使用专业用户创作 WinkStudio 进行视频剪辑,最后使用美图 AI 助手 RoboNeo 对视频进行 AI 修正。
最后,恭喜你,终于提前 2 小时完成了整个视频制作。
以上的场景并不是 " 空穴来风 ",借助美图第二届影像节发布的 AI 新品,上述场景很可能走入寻常百姓家。
未来凭借你 " 个人之力 ",就能单独包揽从脚本创作到最终视频输出的所有工作,一个人可以身兼脚本文案专员、摄影摄像、编导、视频剪辑等职位,而且还能大幅缩减工作时间,对于个人创作者或者小型团队,绝对是一个不可多得的福利。
而能够完成这些工作的底层核心,就是美图影像节的 "one more thing"AI 视觉大模型 MiracleVision 奇想智能。
那相较于已有的大模型产品,美图有什么与众不同?
和已有的大模型不同,美图强调这是一款 " 懂美学 " 的大模型,通过邀请艺术家、专业资深美学背景研究学者,来共同探讨和研究美学趋势,还会和 " 懂美学 " 的创作者一起共建生态。
但是在我看来,美图对于 AI 视觉大模型 MiracleVision 奇想智能还是有些乐观,虽然可以通过模型训练来提升创作的 " 美感 ",通过模型分发来优化模型,但想要快速商业化还需要持续探索。
此外,对于 " 懂美学 " 这个词,就有一定的局限性,美图所讲的 " 美学 " 风格是什么?号召各个艺术家一起商讨美学趋势本身就是 " 各路开花 " 结果,大家审美取向并不一样。
那么,美图大模型对 " 美 " 的理解又是什么样呢?
或许可以从 " 国潮 " 中可以找到答案。
作为国内第一家开启中国传统文化数字传播系统工程的企业,美图公司持续推动影像科技创新,持续将传统文化中的色彩、纹样、妆容等融入现代元素并进行数字化呈现。
这些探索积累大大的帮助了美图的视觉大模型更好的理解什么是 " 国风国潮 "。近年来,美图公司陆续推出了一系列以影像数字化方式演绎 " 国风国潮 " 的传统文化项目 ," 中国潮色 "、" 国潮纹样 "、" 东方潮妆 " 等项目,诠释中国美学。
在理解 " 国风国潮 " 上的基础上,美图对传统影像进行多维度的特征提取和分类,结合 " 国风国潮 " 本身独特的色彩配色方案,将概念转化为影像视觉方案。同时结合多年的技术积累,在通过对影像精准化控制基础上,让视觉大模型进行学习,去真正做到理解 " 国风国潮 "。结合我们视觉大模型本身对语义理解、亚洲人像的背后审美探索等的优势,使得对于国风元素的识别、理解和生成,都具有更高的准确性和创造性。
但我发现在现场展示的根据 AI 提示词来创作国潮人物的学习过程中,在我看来,三个月前的创作形象似乎要比经过大量模拟学习的人物更有个性。
需要注意到的是,美应该是主观的,不被定义的,如果经过三个月乃至更长时间训练出的 AIGC 内容能更让人耳目一新,想必更能体现出 " 懂美学的大模型 " 的价值。
不能否认美图利用 AI 视觉大模型 MiracleVision 作为底层为自家应用产品带来的便捷,但如果从模型底层就开始为 " 美 " 做定义,这是否就背离了艺术应该有的自由、随机特征?
显然,美图在构建这一产品之初,就考虑到了关于 " 美 " 的多样性,即 " 美是多样的 ",通过大模型的海量案例去生成不同人眼中的美,而非偏向于任何一种风格。
此外,美图的 MiracleVision 是国内首个 " 懂美学 " 的 AI 视觉大模型,如何去具体理解?
适当量化和合作参与是其 " 杀手锏 "。
" 美图把长期积累的美学趋势研究融入 MiracleVision 视觉大模型,并搭建了基于机器学习的美学评估系统,为模型生成结果打上 " 美学分数 ",从而不断地提升模型对美学的理解。此外,MiracleVision 视觉大模型具备独特的美学创作者生态,有艺术家、设计师等具有深厚美学背景的专业人士,共同参与到视觉大模型的建设中。"
众所周知,相关研发需要强大的技术支持。在影像节后,品玩记者对美图公司创始人、董事长兼首席执行官吴欣鸿 ( 以下简称 " 吴总 " ) 进行了群访,在提到美图在技术研发上进行了哪些投入时。
吴总称:" 美图 AI 相关布局始于 2010 年,通过成立 MT Lab ( 美图影像研究院 ) 聚焦计算机视觉。自 2013 年开始重点投入深度学习,2016 年即推出 AIGC 的产品雏形 " 手绘自拍 ",广受全球用户欢迎。2022 年 11 月以来,美图 AIGC 产品进入爆发期。2022 年,美图公司研发投入达人民币 5.86 亿元,同比 2021 年增长 7.5%。"
由此可见,美图早于十几年前就着手布局 AI 相关产业,而且随着时代和市场环境的不断变化,在这一领網域的投入也逐年递增。那么,这么大的投入已经取得了怎样的回报呢?
据悉,美图在 AIGC 相关产品的技术研发上有比较大的投入,全面进行资源倾向。一方面不断吸引相关技术人才加入美图,也对原有技术人员进行培训更新;另一方面也加强算力方面的投入。吴总表示,目前美图的很多 AIGC 应用场景有已经被验证的商业模式,用户愿意为 AIGC 产品订阅或单购。
在 AI 的驱动下,截至 6 月 18 日,美图公司的全球 VIP 会员数从去年影像节公布的 450 万增长至 719 万。"VIP 会员数的快速增长,也让我们去年的订阅收入首次超过广告收入,开启了美图商业化的第二曲线。未来,美图将持续进行科技创新探索,结合用户需求研发 AIGC 新品。" 吴欣鸿说。
美图 MiracleVision 视觉大模型,有 " 技术和人 " 持续蓄势
与市面上大部分视觉大模型有所不同,MiracleVision 视觉大模型具有强大的视觉表现力和创作力,并从绘画、设计、影视、摄影、游戏、3D、动漫等视觉创作场景反推技术演化。
然而,好的视觉大模型需要有良好的 " 模型生态 " 支撑,这个过程离不开创作者和开发者的持续参与。在采访中我们得知,美图为创作者提供创作支持,例如像课程、社区和模型创作大赛等。创作者训练的模型,可以在美图旗下产品进行分发,在分发的过程中还能持续进行模型优化。行业客户可以通过 MiracleVision 它的 API 或 SDK 进行商业使用,创作者和开发者也可以从中获得经济收益。
" 在 AI 与影像生产力工具的紧密结合下,优质内容的创作门槛将不断降低,很多行业的生产效率也将不断提升。美图将秉持着 " 让科技与艺术美好交汇 " 的使命,不断为用户带来更优质的产品与服务。" 吴欣鸿表示。