今天小编分享的互联网经验:一小时翻译整部《甄嬛传》,AI面试官发offer……在杭州看AI落地的1000种玩法,欢迎阅读。
文|周鑫雨
制图|况泽宇
拍摄|周鑫雨 邓咏仪
编辑|苏建勋
2024 年 9 月 19 日开幕的阿里云云栖大会上,近 300 家涵盖算力、模型、应用的 AI 企业,和近 1000 种 AI 产品,构成了一幅全行业的活地图。
多模态和具身智能,两个今年最热的 AI 风口,在云栖占据绝对的 C 位——
云栖大会 " 人工智能 +" 馆。
走进汇聚了近 60 家模型企业的 " 人工智能 +" 馆,能明显感受到,如果不加点音视频相关的多模态能力,光拼参数的大模型已经不够看了。
而具身智能,是 " 前沿应用馆 " 最 "City" 的存在。一进场馆,就能看到 20 多家机器人企业,携着或仿真人、或仿狗子的产品,给你来上一段取货、翻跟头、猛踹不倒的炫技表演。
不过,无论是多模态,还是具身智能,再高大上和先锋的科技,能在云栖引起围观的,只有 " 接地气 "。
这届云栖,参观者中第一次出现了 " 义乌老板团 "。面对同声传译、数字人主播和可一键生成商品图的应用,他们替用户提出了最为现实的问题:能帮我赚多少钱?
当红大模型独角兽月之暗面的展台,大概是 " 班味 " 最浓的一个。不少白领、IT 都聚了过来,激辩字节的 " 豆包 " 和月暗的 "Kimi",哪个办公更好使。
在最具未来感的具身智能展台,被暴力踹踢而不倒的 " 小强 " ——逐际动力的双足机器人,引得不少路人围观。这款用于展示机器 " 小腦 " 研究成果的机器人,目前还待在实验室里,供力学研究。
逐际动力双足机器人。
这也挡不住观众对此发出灵魂一问:
" 推不倒,到底有啥用?"
多模态,模型的标配
通义千问:没有不想落地短视频的多模态应用
一进模型扎堆的 " 人工智能 +" 体验馆,很难不被 " 通义大模型 " 展区的 AI 太极写真生成体验区吸引。
通义 AI 太极写真。
体验者只要比划对应的姿势,在镜头中与简笔画合上——几十秒后,一张太极写真就出炉了。
当然,图生图的 AI 写真功能,只是阿里云模态版图中的一小块。作为东道主,阿里不仅发布了最新的视频生成模型,还搬来了文生图、图生视频、图 + 音频生视频的多模态全家桶。
全民舞王。
比如,在通义千问 App 内,阿里上线了 10 秒左右的短视频生成应用 " 全民舞王 "。
用户只需上传人或宠物的照片,以及一段说话音频,就能在 1-2 分钟内生成舞蹈视频、对嘴唱歌视频,或者动态表情包。目前,这还是个免费的功能。
人像动态视频生成技术 EMO(Emote Portrait Alive)。
" 全民舞王 " 的背后,是阿里巴巴智能计算研究所在 2024 年 2 月发布的人像动态视频生成技术 EMO(Emote Portrait Alive)。仅需一张肖像照和一段音频,EMO 就能让人物按照音频内容张嘴唱歌、说话。
据现场工作人员介绍,自 2024 年 4 月 25 日上线以来," 全民舞王 " 的使用人数已经突破了 10w+。多数用户的使用方式是
" 这太适合 I 人做短视频了吧!" 有参观者感叹。
" 没有不想落地短视频的多模态应用!"
智谱:视频拍到哪,作业讲到哪
让家长纷纷驻足的展台中,一定有智谱。
2024 年 8 月 29 日,智谱将 " 类 GPT-4o" 的视频通话功能,搬上了自己的 C 端应用 " 智谱清言 "。
这款融合了视频理解、语音对话能力的功能,就好比 AI 突然有了五感。用户可以用智谱清言学穿搭、识别物品,也可以把它当成赛博闺蜜。
当然,更适合中国人 " 活到老学到老 " 体质的玩法,就是 AI 教师。
对着作业打开摄像头,手机镜头拍到哪,智谱清言就能解答到哪。并且,智谱清言的讲解,质量甚至和真人教师有的一拼,不仅循循善诱,还有问答互动。
比如讲解 " 鸡兔同笼 ",智谱清言不会直接给出答案,而是先引导孩子列出二元一次方程组。
智谱清言视频通话功能。
孩子再也不怕难题,家长也解放了双手。
生数 Vidu:给我一张剧照,我还你一段新海诚
同样是 " 清华系 " 出身的生数科技,展出了自研的视频生成模型 Vidu。2024 年 4 月发布时,Vidu 因为性能优秀,还一度出圈,被称作 " 中国版 Sora"。
但即便是 OpenAI 的 Sora 本尊,也很难解决视频的前后一致性问题。不难发现,大多 AI 视频中,每一帧的脸都不一样。
为了解决一致性难题,生数的解决办法是,给 Vidu 找个 " 模特 "。
2024 年 9 月 11 日生数科技发布的 " 主体参照 "(Subject Consistency)功能,让 Vidu 根据给出的参考图,确定视频主体的形象和风格。
" 主体参照 "(Subject Consistency)功能。
现场,作者上传了一张新海诚电影《铃芽户缔》的女主角 " 铃芽 " 的剧照,Vidu 就根据铃芽的形象,生成了一段秋日公园视频。
VAST Tripo:3D 生成也有 Scaling Law
" 我们有全球最大的 3D 数据库。"
这是我们在展区唯一听到过的带有 " 最 " 字的判断。这句话,来自 3D 生成领網域的明星企业 VAST。
国内不少人可能会觉得 VAST 面生,原因在于,这家由前 MiniMax 和商汤成员创立的公司,第一天就做了出海的生意。
据工作人员介绍,VAST 在海外主打面向游戏、XR 开发者的 C 端应用,在国内则主打 B 端应用," 并且我们在海外商业化不错 "。
不少圈内人对 VAST 的 3D 生成模型 Tripo 的评价是:高性能,操作友好。根据输入的文字或者图片,Tripo 仅 8 秒就能生成 3D 原型图,并且支持市面上所有的 3D 原型编辑軟體,还能直接 3D 打印。
Tripo 现场 3D 打印。
Tripo 文字生成 3D 素材。
当下,3D 生成模型的训练,也沿用堆参数的暴力美学 Scaling Law。2024 年初,VAST 发布的 Tripo 1.0,参数就达到了数十亿,在训练数据稀缺的 3D 模型中是相当庞大的存在。
提高参数,相应的也要增加模型的训练数据。
工作人员透露,在获取稀缺的高质量 3D 数据过程中,团队花了不少时间在 " 犄角旮旯 " 中获取数据。而在训练过程中,模型也用了不少 AI 合成 3D 数据。
就在 2024 年 9 月 19 日,VAST 还发布了生成质量更好的 Tripo 2.0,实现 10 秒⽣成形状⼏何、10 秒⽣成纹理及 PBR(一种模拟光与材质相互作用的渲染技术)。
音疯:AI 玩音乐照样疯
2024 年 7 月,网红秦新宇因整容失败发布的名为《还我妈生鼻》的魔性歌曲,突然冲上了微博热搜。
而这首歌的谱曲者,不是秦新宇,也不是专业音乐团队,而是一个上线不到两月的 AI 音乐生成平台 " 音疯 "。
音疯 AI 音乐体验区。
音疯展台。
这款由昆仑万维推出的音乐制作平台,特点在:长。工作人员表示,音乐生成的难点在于保持前后一致性,一旦歌曲超过 1 分钟,前后的曲风很难保持一致。
因此,音疯的卖点在于,将 AI 音乐生成的时长拉到了 4 分钟,并且能够相对保持前后风格的一致性。用户只需要输入歌词,并且在曲库和人声库中选择喜欢的风格,就能生成一段歌曲。
当然,工作人员告诉作者,目前音疯使用最高频的场景,也是短视频:)。
HiDream.ai:为电商量身定制的 AI 生图
HiDream.ai(智象未来)的展台,驻足了一批批的义务商家。
这家由前京东探索研究院副院长梅涛成立的 AIGC 公司,基因里就带着 " 电商 " 两个字。虽然同样是图片生成,HiDream.ai 的 AIGC 创作平台 " 秩象 ",就像集布景、拍摄、后期于一身的商品图工作室。
HiDream.ai 的 AIGC 创作平台 " 秩象 "。
比如,商家只要输入商品图,就能灵活切换背景、模特。在为服装生成模特图的过程中,商家甚至能够选择模特姿势、性别、肤色、人种。
月之暗面:视频功能,Kimi 怀胎中
人工智能 + 馆人气最旺的展馆,有 Kimi 的一席之地。
在一众把图片、音频、视频、3D 等模态玩出花的模型中,仍然主打文本、表格和代码任务的 Kimi 就稍显朴素。
当然,这并不影响 Kimi 展台的人气——或者准确来说,是 " 班味 "。
现场不乏有上班族,直接向工作人员询问文字转 excel、檔案生成报表、文书撰写的方法。甚至还有企业 IT,直接来咨询 Kimi API 如何接入钉钉、企微和飞书。
Kimi 展台。
不过,这款打工神器,也免不了朝着更多模态迭代。工作人员对作者透露,Kimi 的视频功能,已经在路上!
机器人炸场,虚拟人扎堆
银河通用:松弛感拉满的机器人售货员
擅长 " 抓 " 的银河通用机器人 Galbot G1,这次走进了未来的无人商超。
消费者在平板上下单后,Galbot G1 机器人就会前往货架,准确拿取下单的商品。
Galbot G1。
不过,这位机器人售货员的取货速度,有些太慢了——从下单到接到冰红茶,差不多用了 1 分钟。想要进商超,机器人还是得先戒掉这绝佳松弛感。
当然,无人售货只是银河通用展示的其中一个场景。目前,Galbot G1 已经能够精准抓取矿泉水、雨伞等随机放置的物品,还能够熟练开柜门、抽屉和晾衣服。
工作人员表示,2024 年 Q4,就有希望看到机器人进入真实的商业场景。
清宝:仿真机器人,上流水线搬砖
和披着人皮的机器厂友做同事,马上就要成为现实了。
在清宝机器人的展台,几名不断变换 pose 的仿真机器人构成了门面——然而,由于眼珠转动过于灵活,但表情麻木,这几名机器人还是产生了一些恐怖谷效应。
清宝机器人。
而这几名仿真机器人的作用,既不是陪伴,也不是做智能导游、机器人主播之类的 " 文职 ",而是直接进工厂!
目前,由于流水线 SOP(标准操作流程)比较固定单一,且整机机器人成本较高,投入真实流水线使用的机器人,大多是单一的机械臂。
据工作人员介绍,目前签单的整机人形机器人,在流水线上主要做的是质检和零件分配,客户给出的理由也很别致:" 想让产线有点温度 "。
当然,对于客户而言,机器人带来的温暖,还得在降本增效上。工作人员对作者表示,机器人一年可以节省 20% 左右的人工成本。
酷开:云电视,抓住 AI 稻草
" 这几年电视行业太难了!" 云电视厂商酷开的员工,上来就倒了满满的苦水。随着电视机大盘被移动智能产品挤压,云电视厂商的日子也不好过。
不过,2024 年以来,酷开算是守得云开见月明—— AI 是他们抓住的稻草。
酷开在云电视上线的 AI OS,支持语音搜索电视剧、电影,以及网络咨询,还能向 Chatbot 等智能助手一样,给用户推荐片单。
比如用语音输入 " 陈道明演皇帝的电视剧是什么?" 酷开立刻显示了搜索结果:《庆余年 1、2》《楚汉传奇》《康熙王朝》。
酷云云电视 AIOS。
值得一提的是,搜索结果显示的演员照片、电视剧剧照,全都是由 AI 在后台生成的。酷开工作人员告诉作者,这是为了能够精准贴合用户的搜索需求," 比如你的偶像是鹿晗,你想看他的剧,肯定也想看到搜索结果全都是他的照片。"
不仅如此,酷开也能根据用户的个人喜好,用 AI 生成片单推荐视频。
上线 AI OS 一个月,酷开就吃到了 AI 带来的甜头。工作人员表示,内嵌大模型能力后,使用语音互動功能的用户数量和时长有了明显的提升;与此同时,技术成本的增加还能控制在 10% 以内。
阿里云视频团队:一键给《甄嬛传》配英文字幕
一部成熟的电视剧,就应该学会自己给自己配多语言字幕。
这个美好的愿景,已经被阿里云视频团队实现了。
阿里云视频团队的视频字幕翻译功能。
以往给电视剧配外语字幕,是个大工程。你需要先把台词转录成中文字幕,再翻译成外语。与此同时,配字幕还免不了用剪辑工具。
如今,基于通义实验室自研的算法,用户已经可以实现 " 端到端 " 翻译甄嬛传:不需要给字幕,直接扔视频檔案,就能自动配英文字幕。
猎聘 " 多面 · doris":未来,AI 给你发 offer
第一批数字人面试官,已经上岗了。
猎聘旗下的 AI 产品 " 多面 · doris",就是一位在 24 小时内,面试 400 多人的 AI 面试官。
目前,猎聘 AI 面试有设定问题、智能问答等多种模式。比如在智能问答环节,AI 首先会基于简历,分析出应聘者的潜在风险点,比如 " 频繁跳槽 "" 任职时间不长 ",后续的面试,也大概率会围绕这些问题展开。
猎聘 AI 面试产品 " 多面 · doris"。
不过,不少面试者反馈,由于缺乏即时互動,以及难以从 AI 面试官的扑克脸中获得反馈,和 AI 面试反而更紧张了。
最后,工作人员贴心提醒,数字人面试官比较适合一面、二面等人才的初筛环节。如果企业想要聘请高端人才,还是由人出马更显诚意!
Motiff 妙多:设计师救星,一句话也能生成 UI 了
目前国内最懂 UI 设计的大模型,源自一个叫做 Motiff 妙多 A 的团队。
至少需要一周的 UI 设计,现在被简化成了输入一段话。
用户只需文字输入所需的界面类型、组成部分,以及定制化的描述,20 秒左右,就能生成两版 UI 设计稿。
Motiff AI 生成 UI。
与此同时,基于自研的 UI 大模型对布局的理解能力,原有 Cmd+V、Cmd+C 的重复动作,被 Motiff 简化成了一步到位的下拉动作。
狼人杀不尽,AI 吹又生
除了机器人和数字人,前沿应用馆最容易找到的,应该就是 AI 狼人杀。
游戏公司巨人网络,就将 AI 狼人杀,作为投放在抖音、B 站上的季节性用户活动。
这些 AI NPC 的 " 攻击性 " 还挺高,玩家发言一旦有逻辑漏洞,就会被 " 群起而攻之 "。
巨人网络 AI 狼人杀。
这些 24 小时无休、永远在线的 AI NPC,将巨人季节性活动的用户时长,增加了 10 倍多。
在 2018 年上线的剧本杀 App" 百变大侦探 ",近一个月也基于通义千问上线了 AI 剧本杀。
更进一步,玩家可以直接用语音和 AI NPC 进行对话。不过,对话的轮次有限制,想要增加对话次数,玩家只能氪金——这也是目前不少 AI 剧本杀的主要商业模式。
" 百变大侦探 "AI 剧本杀。
当然,在游戏前加了 "AI" 两字,并非全是好事。
工作人员告诉作者,接入大模型后,技术成本就提升了不少。与此同时,团队选择剧本也更为谨慎:太复杂的本,AI 不理解;太简单的本,用户不愿玩。
只能说,AI 在进步,人也得跟着进步。
欢迎交流!