今天小编分享的游戏经验:行业最难研发壁垒也快被它攻破了,欢迎阅读。
以下文章来源于GT游戏圈 ,作者游戏扳机
前言
3D资产的制作和驱动一直以来是游戏生产流程中高成本的部分,也让许多小团队望而却步,经过前面几场AI原画、动画视频、游戏音乐、原生玩法场的直播,生成式AI在3D资产领網域又能做到什么水平呢,能否给传统的3D制作管线带来"小小的AI震撼",我们邀请了Meshy CEO 胡渊鸣博士、影眸科技 CTO张启煊、CyanPuppets CEO李宗兴、网易游戏主美术NS老师,一起探讨生成式AI在3D模型、动画等领網域能做到什么水平?
胡渊鸣,Meshy.AI CEO,MIT图形学博士,职业生涯聚焦计算机图形学工程、科研和产品,获得SIGGRAPH 2022杰出博士论文提名。博士毕业以后一直在图形軟體领網域创业,最近主要在和团队做新产品 Meshy AI,希望做成地表最强3D AIGC平台。
张启煊,影眸科技 CTO,上海科技大学智能视觉与数据中心研究生,创立了数字人底层技术公司影眸科技,并担任CTO。主要从事数字人底层技术与生成技术研究,研究方向为计算机图形学、计算摄影与生成式AI。带领团队研发了穹顶光场等核心技术,数项科研成果被SIGGRAPH/ICCV等国际顶级学术会议接收,并被成功应用于数十个影视、游戏项目中。
李宗兴,CyanPuppets CEO,AI产品专家,曾任职于腾讯音乐娱乐集团,腾讯研发效能部、虎牙直播、阿里大文娱、任玩堂等公司。
NS,前《崩坏3》角色负责人,现网易游戏主美术。
成志&ROSA,主持人,AI+游戏市场观察者,GameTrigger投资副总裁
他们探讨的话题包括但不限于:
为什么3D资产生成需要AIGC?
能通过三视图生成3D模型吗?
学术届和工业界之间的Gap在哪里?
目前不同领網域的3D生成能做到哪一步了?
我们将他们的部分讨论整理成文,期待能带来新的思考和启发,Enjoy~
胡渊鸣 Meshy分享
用AI在一分钟内生成3D模型
我21年的时候从MIT博士毕业一直在创业做图形軟體,最近在和团队做 Meshy AI,让用户零门槛从文字、图片生成 3D 模型。Meshy 团队分布在全球,我们想把 Meshy 做成全球 3D 生成式 AI 领網域最好的产品。
Why AIGC for 3D?
大家可能有一个问题,为什么学术界能取得比较集中的进展,但真正的好产品却没有出现?生成式AI有很多模态,比如文字、图片、视频,其中不乏能商业化落地的项目,而 3D生成的产品现在仍没有出现一个Leading Player,处于空缺位置,而这里面有很多的事我们可以去做。
从需求出发,对3D内容的需求是不断增长的,特别是在影视、游戏、XR行业,未来的3D互动内容会快速增长。全球游戏是一个1600亿美金的大生意,虽然现在增速可能放缓,但全球3D资产一年大概要消耗30到100亿美金的生产成本,高级3D艺术家做一个模型大概是几周的时间,而爱好者做独立游戏或者3D打印之类要用到3D模型的情况就得去学习像Blender、Maya这样的建模工具,所以可以看到供需不平衡的存在, AI技术最近的成熟使得快速3D内容创作工具对大家充满了吸引力。
那么为什么现在还没有一个Leading Player呢?首先,是速度和质量的取舍。生成3D资产主要有两种方式,第一是生成多个视角的2D图片,然后通过NeRF之类优化的方式去得到3D模型,这种方法质量相对来说还不错,但实际上学术界和生产环境中要求的差别非常大;以及速度很慢,经常要等半小时或者几小时才能生成一个模型,对用户体验来说,反馈时间很长,对企业来说,要提供云端GPU去做优化,GPU成本很高,很可能入不敷出。另外一个极端像Open AI的PointE/ShapeE,速度很快,直接在3D基础上做生成,但由于3D数据的稀缺性,它的质量上不是特别好。我们希望做到速度快,并且质量也不错,如果把质量和速度抽成四象限的话,我们希望做到右上角的位置。
第二个难点是学术和产业的鸿沟。我在MIT做博士研究的时候,大家平时想的都是如何去发表一些比较好的论文,但是作为创业者,你又会面临用户的一些真实需求,论文拿到真正的生产当中会遇到很多问题,比如风格不可控、Poly Count很糟糕、甚至用户界面不是特别可用,学术和产业的鸿沟导致了虽然学术界看起来百花齐放,但是真正好的产品还没有出现。
3D生成式AI产品要做到五个事情,那就是"多快好省易"。
1. "多",是你的样式要丰富,得支持不同的场景美术或者角色美术,并且拥有一定泛化能力,如果没有泛化能力的话,不如去搞个资产库或者用程式化生成的方式去生成资产;
2. "快",因为AI很难每一次都给保证符合要求的结果,用户通常期待五分钟以内能产出,另一方面,从商业角度来说,运行时间长导致成本很高;
3. "好",其实是目前最大的难点,也是用户最期待的事情。网格、贴图、PDR channel等方面我们现在能做到的和实际需要的都有很长的距离。
4. "省",用AI就是想降成本;
5. "易"指易用,产品需要符合已有的3D生产工作流程,需要团队对于用户需求和CG行业有深入理解。
我们的尝试
从这五个原则出发,我们做了Meshy,它现在是全球3D生成式AI里跑在比较前面的玩家,从5月份上线到现在有将近10万的用户,每周能增加20%,基本上没有花市场费用,可以看到大家的关注度还是挺高的。我们的定位是分钟级别生成高质量的3D模型的解决方案,目前的合作伙伴有像美国的一些上市公司,他们调用我们的API去给AR玩法提供文字生成贴图服务。
Meshy 有三个功能,分别是文字生成3D、图片生成3D、以及从文字生成贴图,同时能以兼容格式导入到下游的Unity、UE、Blender进一步编辑。我们先解决了"速度"的问题,虽然快和好存在取舍,但是我们先把快的问题解决才能够让更多用户用起来。此外还支持4K的PDR贴图生成和风格控制,风格非常重要,如果一堆高质量资产放在一起如果风格不统一,看起来也将非常杂乱。我们也有Unity和Blender插件后面会上线,并且我们特别重视多语言支持,可以直接用多国语言写提示词。
我逐一介绍一下三个重要的功能,一个是纹理生成,给一个3D网格,加上文字提示词就可以快速生成纹理。通过这个技术,我们和Soul Chronicle落地了全球第一款3D AIGC手游,以前游戏时装需要人力绘制,现在可以用AI直接生成360度时装,做到千人千面。也可以在VR中建模,用Meshy生成贴图;也可以和UE结合,比如说把裙子模型导到Meshy里,用提示词绘制它表面的图案,就可以在UE里面制作动画了。
接下来是文字生成3D资产,主要是在游戏生成环境美术当中比较有用,比如你只要输入文字,就可以生成一个带贴图的3D模型,好处是使用非常方便,缺点是控制力不足。一个常见的问题是用户为啥不直接去SketchFab搜,因为其实经常找不到自己想要的东西,所以需要AI生成。这是我们用户创建的一个场景,里面所有的模型都是AI生成,虽然这样的效果目前还需要技巧,但也证明对于写实环境资产的中远景,Meshy的Text to 3D做的还不错。
接下来是图片生成3D模型,在角色美术上用得多一些,你需要一张前视图或者手绘图,也可以是MJ或者SD的输出,Meshy会把它变成3D模型。好处是可控性比较强,缺点是得先生成或绘制图片,流程稍微复杂一些。你如果有一些自己的应用想接入Meshy功能,也可以使用我们的API。
我们在哪里?朝哪里去?
一开始我们有一个大问号,就是3D生成式AI的位置会由谁去站着,我们很希望把Meshy做成3D生成式AI,特别是3D模型资产方面。接下来有一个问题,我们距离实现一个3D的Midjourney还缺什么?首先市场方面,3D模型市场比2D图片市场小很多,可能十分之一的规模都不到,消费级的3D的场景还没有成熟,可能VR头显是一个契机,但要5000万保有量时可能已经是2027年以后了,所以需要一些时间。
技术方面,现在3D AIGC还不是特别成熟,比如网格质量、视角一致性、内容多样性、可控性等都远远没有到工业生产标。现在可能只解决了10%的问题,但我相信剩下的90%进展速度也会挺快的,至少再等两年或者更长时间,是值得做的事情。
和其他模态AIGC产品比起来,文字、图片、语音等基本上比较成熟、能够明确落地;视频技术虽然相对还比较早期,但视频消费市场是很成熟的。3D现阶段其实比视频更加早期,技术也有挑战,我最后用一句话来结尾就是敢为天下先,其实ChatGPT或者MJ都是在大家不相信他能做的时候开始,最后才能站到这个位置,作为创业者还是要有一些冒险的精神,要走在前面。也许以后大家做3D资产的成本相对来说低很多,不管是对于专业用户还是对于业余用户,把时间用在真正有创造力的事情上。
QA
观众
怎么看待MVDream这个技术路线呢?
胡渊鸣
这个技术路线挺不错的,基本是我最近见到最好的工作之一了,但它的速度相对来说慢了一些,如果能够做到一两分钟以内,我觉得是很值得去商业化的东西,当然从学术界到产品,还要付出很多的努力。
3D生成资产离商用还有多远呢?
从素材复杂度和丰富度层面来说,3D AIGC还达不到游戏生产中 hero asset的要求,可能还需要至少两年的时间才能达到符合游戏生产需求的标准,我是比较技术乐观主义的人。
成志
如果我喂三视图给Meshy能行吗?
目前只支持正面,其他两个视图我们一直在想办法去做,其实建模基本上是三视图,主要难点在于三视图本身可能就不一致,你需要进行语义上的提取,它不是特别容易能以算法标准化的方式去做。
NS
我试用了一下Image to 3D,我觉得比较大的卡点在于3D比较讲工作流,您也提到Meshy的布线、分UV之后其实等于是映射上去的,会比较乱,我们没办法在正常工作流里继续加工,比如我想让它动起来的话,如果想要用比较精致的绑定,如果布线的三角面和四边面处理的不是特别好的话,其实是进不去绑定的,后续工作的开展会比较困难。我觉得可以考虑有没有那种自动拓扑軟體,在上面拓一层规范的布线,以这种逻辑的就可能可以进工作流,后续还是得有其他軟體跟它一起打支援,一起产生出一个相对比较规范的一个模型。
我特别认同,我们也在做三角面转四边面的一些研发,很快也会上线了,如果我们能在軟體内部自动吐出来四边面的话,用户用起来会方便一些,也会更接近量化生产。另外关于绑定问题,现在Image 2 3D生成的内容是可以上传到Mixamo的,但是主要还是中远景的配角绑定。
我们确实认为学术界可能有很多问题都没有解决,很多用户来用其实也就是图一乐而不是真的用在工作流程中了。我们觉得质量越好,能进行的商业化的空间就会越大,我们自己还是很有信心想把这个事情去长期做好的。
我有个想法就是关于三视图的问题,有东西互相遮挡的时候生产会比较困难,其实可以考虑把它切成一块块的,生成之后再在3D軟體里把它给拼起来。
但我不知道如果这样再折腾一把,倒不如直接手动建模了,所以现在AI建模最大的挑战是你用AI生成的东西,用户如果要求很高,他会发现这个修补的时间还不如重做,所以现在只能在一些边缘的场景先做进去,要不然会变成为了用AI而用,那就得不偿失了。
张启煊分享
影眸科技:数字人生成
我们的产品主要是可以让大家能够快速生产直接使用在游戏中的数字角色,对直接使用的定义是它原生输出的就是四边面、所有角色的拓扑都是规范且一致的、提供多种不同UV布线和不同拓扑结构的导出方式,代价就是它只能用来生成人。它的方式很简单,我们做了一个Chatbot,使用中会通过对话帮你总结到左边的Prompt栏里,因为我们发现让一个人去想他腦子里的角色要长什么样子,直接用文本描述是很痛苦的,一开始编到第五个角色就编不下去了,刚好ChatGPT出来,在GPT的帮助帮我们完成了100多个角色的Prompt转写。比如我希望有一个长得像普京、看起来比较健壮的男人,那就能直接生成,并且带PBR材质,包括normal、specular、diffuse都是毛孔级的,你也可以进一步通过调prompt去生成各种花纹图案。
上述是我们最开始4月1日发布时包含的功能,经过几个月迭代我们现在做到了可以通过三张照片生成想要的角色,比如生成马老师只需要上传一张正面照,就可以得到一个几乎是pixel line的角色,它的布线是标准的、面部是delighting并且带PBR材质,你也可以直接输出面部的表情和绑定,可以直接使用在角色里面。
我们刚开始出来的时候从从一篇paper都没有一路更新打怪,我创这家公司时才大二,我们实验室之前一直是在图形学领網域,但我们更加偏向于计算影像这个方向,我们解决的是怎么样把一个物品在三维世界或者在平面上表达出来。3D数字人、2D数字人神经渲染、影像生成的3D渲染等方面几乎是我们工作内容的全部了,但我们在开展这些科研的时候其实已经有这家公司了,所以会更加考虑怎么样去把这些东西落地。
我们主要focus三个方向。一个是怎么做重建,二是怎么做动画,三是怎么通过积累大量的数据去把我们要的东西直接生成出来。Chat Avatar这个产品也是有幸登上了今年SIGGRAPH Real-time Live! 舞台,也是国内第一次有团队在这个舞台上。
和老黄的合照
我们最开始做这件事是2016年,我还没有进上科大,但是整个科研课题组已经开始了,但整个实验室的主要focus在数字人,或者说怎么把现实中的人copy到虚拟世界。所以我们做了当时国内第一个光场系统,也是最早一批开始采用光场的方案去做高精细度人脸重建、以及从一张照片还原人脸的相关技术的研究团队。
当我们开始做这家公司的时候,刚好是一个比较特殊的时间点,那一年NeRF横空出世,整个圈子都开始关注那项技术可能会给接下来的图形圈带来的影响和变化。其实与其说是横空出世,更像是神经渲染开始引起大家注意,而NeRF是神经渲染中的主力军。所以我们做的第一个工作是人像的重打光,可以在拍摄完影像之后再去编辑数字角色面部的光照,更多是2D的东西,我们一开始觉得牛逼爆了,可以改变影视特效和制片上的流程,结果一套都没有卖出去。
我们发现最核心的问题是我们所使用的渲染方案其实没办法跟现在游戏和影视中的管线相兼容,实时性没有办法用在游戏影视里,只能作为一个小玩具,这也直接导致我们接下来做的所有工作都开始考虑一个问题,到底有没有人会买单,还是只是学术圈的自嗨。虽然我们没有把这件事做成,后面还是有人把这件事做成了,叫Initial ML,它被Stability AI收购了,老黄去年的GDC上也跟大家展示英伟达在人像重打光上的进展,他说他要比前人的工作好上十多倍,我们就是那个前人的工作。
我们很想把这个产品接着做下去,但是后来放弃了,当时整个团队只有八个人,我们觉得如果坚持把这个东西做下去无非就两个方向,一个是工具,我们没有特别长期的快速迭代能力,一个是社区,但我们八个做技术的也不一定能做成,所以我们决定把所有2D路径砍掉,开始往3D去靠。
我们也吸取了教训,就是学界跟工业界在3D资产的使用和表达上其实是完全不同的,我们需要保证产品在第一时间就能直接兼容工业界标准。我们第一个发力方向是在数字人上,我们做了一套叫穹顶光场的技术,可以高精度扫描真人,能到亚微米级皮肤微结构的精度,这项技术也用在了很多国内的数字人项目里,包括影视作品,比如流浪地球二。
通过这项技术,我们积累了大量人脸数据,扫描像这样的级别的数字人从扫描到完成制作以前需要一两周的时间,而我们当天就可以完成,而且可以直接用在电影作品里。有了这些数据资源后,我们就可以去做一些跟AI还有3D生成相关的事情,人脸资产数据库(PFA)里面每一个角色其实都带了个性化自由绑定,因为我们在扫描时会扫描它的动态、4D、极限表情的运动,然后会有一套算法把它拆分到专属于它的绑定;第二,每个角色都有毛孔级的细节,而且都有完备的PBR材质,并且有动态贴图可以去模拟出特别细腻的皱纹等一系列效果。
回到3D生成,我觉得两年都有点乐观了,我可能是个技术悲观主义,在3D生成漫长旅途中我们肯定还是有什么事可以做的,所以我们去年年底做了DreamFace这项工作,我们放弃了广泛的3D生成,而专注于角色领網域,我们已经能够做至少配角级的模型,也是带骨骼绑定的,这项工作也发表在了今年的SIGGRAPH上。
我们的Chat Avatar除了这个平台本身以外,我们其实还提供不同平台的插件,包括Unreal、Unity、Blender等,你可以直接把生成出来的角色去导入到引擎中,可以直接用ARKit驱动,直接控制上下左右试用。我们现在还在做一个特别的插件,这个插件是为Cyberpunk2077打造的,你可以直接把里面的任何角色换成生成的人脸,相信到时候也会有很多有意思的玩儿法。
照片生成3D的使用其实也很简单,比如你可以直接把角色三视图上传到,它会去把人脸craft出来,你可以直接生成跟这个角色最接近的一个三维人脸模型,你也可以进一步导出它的面部驱动、身体绑定、眼珠牙齿都可以导出。为什么我们在网页端不展示眼珠牙齿,是因为web端渲染不太能满足我们对真实度的要求,所以我们干脆不展示了。我们觉得Prompt从文本去生成3D资产更加是个缺口,或者说当你需要批量生产的时候会去采用的方式,而从照片去生成可能更加符合我们独立游戏,或者说可控性要求比较高的一些情景。
这是我们Blender插件中直接把生成结果导入的效果,其实可以看到它面部的细腻程度我觉得是比市面上很多扫描公司的质量要高的,因为我们的数据质量很好,一些国外的名人你可以直接通过文本去生成。
QA
二次元角色生成会不会也很有意思?难点在哪里?
启煊
我们这一套生成方案里很依赖差分渲染,差分渲染现在基本上是类PBR渲染,但二次元其实更多的是NPR,所以得先把这个核心问题解决了。虽然我不是二次元,但是我做过二次元产品,我们现在对二次元的优先级蛮高,有很大的精力花在这上面。
感觉产品成熟度挺高的,刚才你们在说二次元的角色生产,其实二次元角色的脸部制作现在有一个类似通解方案的东西,我推荐你们去看一下日本ARC的关于二次元NPR渲染的技术分享和模型,靠它那一层基底基本上可以还原90%以上的二次元脸部画风,然后以基底作为变形其实大部分都可以解决掉,我觉得可以从那方面找一找突破口,因为其实米哈游NPR渲染技术的基底也是看的罪恶装备xrd的技术文档。
我们超写实角色这一块有很多还没有上线但已经做好的,比如毛发生成,服装生成。我们做二次元的时候,其实一部分精力是面部,另一部分精力是头发,NPR这块我们确实感觉有点难度。
李宗兴分享
Cyanpuppets:2D视频实时生成3D动画
我们想为业界提供轻便化驱动3D资产的模型方案,主要是做2D视频实时生成3D动画,以神深度神经网络和卷积神经网络算法为核心,使输入的2D的视频源解析成面部、手指、肢体等全模块动作数据,再映射到3D引擎里实现生成3D动画。
我们的模型有9亿数据量,参数量相对较小,主要是2D生成3D动作的专用模型,通过一段实时的2D的视频流解析208个关键点捕捉,生成延迟是0.1秒。
这是我们的一个Demo,它的质量介于传统惯性捕捉和高昂的光学捕捉之间,你几乎可以做任何你想要的动作。国内案例像腾讯、哔哩哔哩、完美世界、清华大学、北京大学、中国传媒大学、阿里大文娱等客户有使用cyanpuppets进行3D内容领網域的探索,国外案例像Skep、one or eight等团队也类似。
这是我们的技术原理,将2D视频通过模型处理后生成一个3D向量空间,有点像特斯拉在2019年提的概念,在这个空间里面可以解析出完整的人物骨骼,我们也建立了一套完善的人体生物力学和动力学来解析每一个骨骼点的耦合关系。我们基于COCO数据集和自己训练了70%的数据据集在英伟达的CUDA上跑,最终生成面部140个关键点、字体30个关键点、单手21个关键点的动态捕捉数据输出。某大学用我们的方案进行人体生物力学的采集研究,包括采集工人操作的3D数据来帮助降低失误;拜科生物则用在临床医学上,将一套人体肌肉系统实时接入我们视频流,用来演示人体的完整骨骼是如何运动、肌肉关系是如何的。在3D引擎中,通过关键骨骼点和重定向算法,最终映射到UE或者Unity。
我们第一个支持的是虚幻平台,尤其是超写实数字人方面的表现,我们支持UE、MetaHuman、CC4等多种规格,无需二次开发调整,我们做了一套算法来支持绝大部分3D模型标准的直接映射,把模型拖进来就可以直接驱动了。从生成视频到3D动作到模型端,我们打通了一个产品,并且已经以License的形式授权使用。
我们对算力的要求也比较低,只要RTX3060在本地部署就可以达到0.1s的延迟,目前没有上到云端。我们定制了一款非常稳定的RGB camera,可以使高质量的捕捉数据并保存到本地,也可以实时应用到虚拟主播、VR游戏里面。
我们也提供了在3D引擎里面简单使用的方案,只要在UE里面安装我们的插件并勾选,把采集端的IP地址输入到UE,就可以把动作数据传输到工程檔案里。它的链路非常的简单,可以快速得到非常高精度的数据。
QA
怎么看待Demotion这个解决方案呢?
李宗兴
它其实是单摄像头的视频生成方案,在生成质量上跟我们还是有不少差别的,至少并没有在商业化场景里面有直接落地。而我们对在全球范围内已经有非常多客户完成了商业化落地,精度也比他们提升60%到70%左右。
我们方案是采用两路RGB视频流去生成的,它是黑白像素生成,意味着它可以在比较昏暗的环境里完成,场地要求2.5米乘以2.5米左右。
这项技术的作用挺大的,因为游戏开发里,特别是偏大型的游戏,动作的产能会是一个非常大的卡点,如果能基于视频生成动作,我们可以去做一些很快速的验证,在整个工作流里的可实用性挺强的。
怎么看待Open Pose这个解决方案?
Open Pose是卡耐基梅隆大学做的一套非常强的方案,是一个显卡消耗型的方案,拿无穷无尽的这个算力解析离线视频流。在英国我们有一家竞争对手叫Move AI,他们最大的问题就是它生成的只有肢体部分,而且需要20万左右的这个渲染主机才能跑得动,并且是一个非时事方案,想要做到十多帧需要有非常强大的算力和非常好的视输入源。我们是一个自研框架,跟其他厂商的实现原理都不太一样,所以性能上也有差别。
室外场景和逆光环境的表现如何?
我们也支持室外,我们有客户会在室外的羽毛球场里进行动作捕捉。但逆光环境表现确实还差点,因为逆光输入的视频源清晰度比较差,大部分的位置过曝了,我们不能很好的解析。
相比于低端光学,我们的优势是不需要穿戴任何设备,并且输出的FBX数据能媲美入门级的光学棚,Rokoko惯性捕捉的肢体稳定性在前十分钟跟我们差不多,但它没有手指和面部,而在长时间下,它会产生信号漂移以及肢体扭曲问题,但我们是AI生成方案,完全没有这方面的顾虑。
注:以上内容仅代表嘉宾个人观点,不形成任何普适性结论,其他讨论纪要将在后续逐步整理放出,敬请关注~