今天小编分享的科技经验:商汤披露汤晓鸥数字人背后:反复调参还原逼真细节,“有趣的灵魂”无可替代,欢迎阅读。
商汤首次揭秘,如何用 AI 跨次元复现汤式幽默?
在年会上来段儿脱口秀,是 " 被 AI 耽误的脱口秀演员 "、商汤创始人汤晓鸥在每年商汤 " 春晚 " 上的保留节目。
不久前,当那个熟悉的身影和他的 " 汤式幽默 " 重现在商汤线上年会时,不少员工还以为这是汤晓鸥本人过去的视频,直到螢幕中的他提到春节档电影《热辣滚烫》,大家才确信:" 这真的是汤老师的数字人!"
商汤创始人汤晓鸥数字人推荐了《热辣滚烫》
这场跨次元的重逢令许多熟悉汤晓鸥的人泪目。大家动容的同时,不禁感慨视频中的细节:举手投足间,他的每一个细微动作都惟妙惟肖,中场时他还很自然地拿起瓶子喝了口水,就连东北口音和特有的 " 汤式冷幽默 " 也被生动还原。
" 大家都说:感觉汤老师回来了。" 商汤年会后的一周,在北京理想国际大厦对第一财经记者回忆起制作汤晓鸥数字人背后的故事,以及与汤老师共处的过往时,商汤科技数字空间事业群数字文娱事业部总经理栾青红了眼眶。
用 AI 数字人 " 复活 " 逝者,不仅意味着 AI 在技术上的突破,也承载着人类情感的延续。它让人们看到了超越生死界限的可能性,也引发了关于生命、死亡以及技术伦理的深刻思考。数字人虽然可以模拟出人类的外貌和行为,但能否真正理解和体验人类情感?数字永生是否会破坏人的身份认同?如何确保 AI 数字人的真实和安全性?这些问题没有简单的答案。
汤老师回来了
" 大家好,我们又见面儿了。"
视频中的汤晓鸥一开口,仿佛拉回与老友重逢的场景。在这 9 分多钟的视频背后,栾青透露,整个视频内容真正去操刀执行人物生成和声音生成的,其实就 1 至 2 个人,文案调校涉及和家人、朋友对于内容探讨等,大家花了一天多的时间完成了第一版的视频,此后经过反复打磨以求达到最好效果,直到年会那周才敲定最终版本。
而让汤老师身影重现,是商汤的一次集体共同决策。
栾青对第一财经记者回忆,过去每一年年会,创始人汤老师都会说上一段脱口秀,他喜欢从大家的生活日常和流行元素中汲取灵感,以诙谐幽默的方式分享自己对于工作事业和人生的感悟,将年会氛围推向笑声的高潮。然而去年汤老师意外离世,所有人都深感伤心和遗憾。
约在一个半月前,由徐立(商汤科技董事长兼 CEO)、技术团队、品牌市场传播部等组成的年会工作委员会在构思节目时,大家很快达成共识:征得汤晓鸥家属同意,在如影数字人技术的支持下,让汤老师重现年会,让他的精神继续激励大家前行。
徐立对汤晓鸥老师的数字人有更高的要求,他希望超越数字人本身,不是以同一个或几个动作表情、讲述的状态出现,而是以更高的还原度呈现,让大家觉得:这就是汤老师,和其他高管在线上年会中一样真实。
商汤科技数字人领網域已有一定积累,栾青告诉记者,不只是汤晓鸥,商汤所有高管都有自己的数字人版本,常常用在一些他们无法亲自出席的场合,因此,将这一技术应用于年会来重现汤晓鸥的形象,成为了一个切实可行的方案。
不过,AI 数字人技术并不是简单地将一个人 " 复制粘贴 " 到虚拟世界中,而是通过复杂的算法、数据以及深度学习、自然语言处理等技术,模拟出人的外貌、声音、动作甚至是思维模式,从而创建出一个高度逼真的数字人。
栾青说,东北人、段子手和冷幽默是汤晓鸥老师在大家心目中特别重要的直观感受,他说话中还有很多辅助词如 " 嗯 "" 啊 "" 是吧 "" 这样 " 等等,这些细节在逼真还原中是第一重要的,这得益于大模型在语音方面的技术突破才得以实现。
这其中也有挑战,比如汤老师不可能再配合进行声音的录制,因此团队在制作过程中,花了很长时间寻找汤老师以往四五种不同风格的语音素材,每个截取了 3 到 4 秒作为 prompt(提示词),让 AI 去生成他的说话风格,有些是调侃式的,有些是深情款款的。栾青说,大模型语音的生成让她自己都感到惊叹。" 比如‘嗯’‘这样’等语气辅助词都不是靠我们人工打字进去的,而是 AI 学习后自己生成了他说话时常用的习惯,非常自然。"
除了大模型语音生成技术外,在汤晓鸥数字人生成中还使用了比较多的动作生成和场景的自然过渡等新技术,这些视频生成中的技术,包括动作的自动匹配,生成和选取等。
" 包括汤老师的笑,肯定没有办法和现有的素材里找到刚好一模一样的。" 栾青透露,一开始的版本中,汤老师的笑并不够自然,团队用参数化的方式和学习的方式进行不断的复现和调整,终于调到合适的参数抓住了他笑的神韵,其中用到了商汤还在研发中的新的视频生成技术。
除了动作、神情等外在," 汤式幽默 " 如何生成,也就是文案的调整,是花费时间最多的地方。
汤晓鸥曾在一次公开演讲说自己每天晚上睡觉前,都是一边听着于谦老师的相声,一边在想:" 机器怎么可能超过这样有趣的灵魂?" 而在年会上复现 " 汤式幽默 " 的过程,也的确不只靠 AI。
栾青向第一财经介绍,这支视频中汤晓鸥的演讲内容由几个熟悉汤老师的人共创完成,他们通过细致研究过往的视频及文本资料,头腦风暴后不断迭代和优化,尽可能地还原汤氏幽默。例如,汤老师每年都会推荐电影,而《热辣滚烫》的段子是年会前一天徐立建议加的。" 还是要让大家意识到原来这是汤老师最新的(视频),不然大家会以为这是之前录的。"
包括视频中小火车在苞米地里前行的创意,以及随后 " 往前看,别回头 …… 在 AI 这条路上往前开吧 " 的寄语和推荐春晚小品的场景,也是熟悉汤晓鸥的人们一起创意出的结果。
例如,他调侃今年春晚最好笑的变成新疆人了,他作为东北人有点儿不服气,推荐了一部小品《吃面条》并介绍了这背后的花絮:正是因为当年编导最后开播前确定让演员上场,才有了春晚史上的第一部小品。他借此来表达:坚持原创这件事,是留给有勇气的人做的;而真正支持创新的人,是有勇气担责的。
他还谈到,以前的喜剧之所以那么好看,是因为时间的沉淀才成为经典。也许前路一片迷雾,而他们只是一群选择出发,并坚信赶路的人。
" 这很汤式风格。" 一位熟悉商汤的人这样对记者评价。
栾青也对此感触颇深,聊着聊着红了眼眶:" 按照我的理解,这其实是让大家不要在风云变幻的市场或者各种各样的市场噪音下扰乱自己的心智,只有沉下心来做事,坚持中国的原创技术,把最经典的东西留给大家,历久弥新,这才是我们正确、该做的事。"
诉求多了,更谨慎了
在商汤用 AI" 复活 " 汤老师之前,音乐人包小柏用 AI" 复活 " 去世女儿的故事也曾令网友泪目,他用 AI" 复活 " 女儿给妻子唱了生日歌,感慨 "AI 就是寄托思念的工具,也是一种对思念的表达方式。"
这些场景,如同电影《流浪地球 2》照进现实。电影中,科学家图恒宇通过量子计算机 " 复活 " 了其因车祸去世的女儿图丫丫,让她在数字世界中度过完整的一生。
目前市场上对于数字人的主要需求来自直播、视频制作等娱乐产业以及医疗、教育、金融保险等行业。在汤晓鸥的视频发出之后,栾青团队接到来自企业客户和个人类似亲人数字人的诉求更多了。从技术本身来讲,只要哪怕十几二十秒的连贯性视频素材,就可以制作一个简单的数字人。
不过,她并不认为这意味着 "AI 数字人复活逝者 " 马上要迎来爆发期了,AI" 复活 " 汤晓鸥和包小柏女儿的时间点,只是 " 巧合 " 地都赶在了近期。
在虚拟世界中,人们可以再次感受到逝者的幽默和智慧,仿佛他从未离开。但 AI 数字人复活逝者不只是一个技术问题,更是一个伦理道德问题。技术是否可以成为人类情感的一种寄托?在数字化时代,我们如何重新定义和塑造人与人之间的联系?AI 数字人能否理解人类的情感、是否会给亲人带来二次创伤?如何避免这项技术被滥用?这些问题没有标准答案,也令从业者更加深入地思考人类的本质和技术的边界。
商汤科技数字空间事业群数字文娱事业部总经理栾青
栾青对记者表示,在 AI" 复活 " 数字人的背后,目前 AI 大腦能不能更好地符合每个人的心智,包括从伦理道德角度、技术角度等等诸多问题都还在不断探索,这也是 " 逝者数字人 " 这件事过去多年尚没有形成一个产业的重要原因。
她告诉记者,商汤对于 " 逝者数字人 " 持观望态度,并没有非常积极地去推进,暂时还处在一个先了解需求的阶段,更希望先看到上下游有更丰富的相关服务做起来。" 相比之下,主播数字人或是其他商业性用途数字人更像是 " 强工具性应用 ",不需要过于复杂的情感。
" 我们究竟去哪个行业,其实并不是关键的,而是看你解决了大家什么样的问题,不一定是殡葬业,也有可能是比如亲人之间的陪伴,甚至是偶像明星用这种方式去陪伴自己的粉丝等等。" 栾青说。
她同时提到,在推广和应用数字人技术时,必须建立严格的伦理准则和监管机制,包括使用范围、保护个人隐私、尊重死者和家属的意愿等。此前,在中国信通院的研究机构牵头下,商汤等多家 AI 公司共同制定了 " 可信虚拟人生成内容管理系统技术要求 " 的标准,制作一个数字人首先需要得到家人或者被当事人授权,同时商汤数字人有相关的鉴定机制,在商汤这个平台上制作的数字人里,有一系列看不到的 " 编码 " 藏在其中。
对于数字人的商业化落地,栾青认为,过去传统的数字人市场技术成熟、应用场景明确,竞争非常激烈。但是现在的竞争逐渐已经进入深水区了,也就是说相关的服务如何能够真正帮助用户解决实际问题,目前还有很多方面的技术有待突破。
例如,在情感陪伴层面,数字人不仅需要具备高度自然的语言交流能力,还需要能够实时生成与对话内容相匹配的动作和表情。这需要业界在大模型对话能力、动作生成技术等方面进行持续投入和探索。
还有一些直播数字人,人们仍会觉得 " 假 ",动作复杂度、实用性比较有限,这是因为,对于复杂动作的生成,现有市面上各类视频生成技术还难以做到对细节动作、表情的精确控制,这使得数字人在表现一些复杂情感或动作时显得力不从心。" 到了现在这个阶段,生成式大模型能不能使得这种自然度、真实感进一步突破,这是未来需要跨越的一个关键。"