讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己 - 大酷樂

今天小编分享的科学经验：讯飞版《Her》长脸了！多模态虚拟人表情动作超逼真，一张图一句话就能DIY自己，欢迎阅读。

跟讯飞星火 AI 女神视频面对面，国产《Her》从此有了脸！

不管跟你科普面霜，推荐酒水礼物，还能看图说话讲故事，都能轻松拿捏。

你有看过孙悟空奥特曼一起打怪兽吗？（狗头）

即便是这么一个不着调的 " 名场面 "，" 她 " 也能硬讲出来一段生动的故事来。嗯嗯论讲故事还得是 AI 来 ~

除此之外，你也可以自己 DIY 一个虚拟人。只需一张照片 + 一句话，就能创造一个 " 自己 "。

（白小交从此有了脸）

目前，该功能已经在讯飞星火 APP 上线。

而背后的底座大模型也迎来重大更新——讯飞星火 4.0 Turbo 正式发布，七大核心能力全面超过 GPT-4 Turbo，数学和代码能力超越 GPT-4o，国内外中英文 14 项主流测试集中讯飞星火 4.0 Turbo 实现 9 项第一。

与此同时，国产超大规模智算平台 " 飞星二号 " 正式启动。

跟讯飞星火视频面对面

此次发布会的重头戏，就是讯飞星火在多模态视觉、超拟人虚拟人上互動能力的提升。

在大模型的驱动下，我们正在迎来一个崭新的万物智联时代。新时代下的互動标准，科大讯飞有自己的定义。

董事长刘庆峰介绍道，在已有远场高噪、全双工、多语种多语言等基础上，还包括多模态、超拟人、个性化等特点。

其实在今年 8 月，讯飞版《Her》就已经发布。这次语音能力更新基础上，还具备了视觉能力、并拥有了自己的形象。

简单来说，实现了从语音互動到音视频流的实时多模态互動的跨越，情感感知（包括项环境、文字、物体、姿态、着装等）更全面、任务理解（包括语音、手势、行为、情绪等）更精准。

在现场，讯飞研究院院长刘聪率先展示了语音能力，除了本身语气和情感度更加逼真以外，它还能跟你玩角色扮演游戏。

模拟个孙悟空、小猪佩奇都不在话下 ~

俺老孙一路只顾得披荆斩棘，降妖除魔。要说有趣，当然是捉弄八戒那呆子最有趣！

在此基础之上，讯飞版 Her 现在能面对面聊天，它能根据语义、语音节奏来自动生成表情和动作。

比如听到几百万人在线上看表演时，一些小惊讶、开心激动的表情。

据介绍，这也是业内率先实现「口唇、表情、动作」语义对齐、贯穿的超拟人数字人。

而一旦打开摄像头，它还能基于动态的视频画面来进行对话交流。

比如识别各种物体，各种花草、建筑还有小玩具。

龙船花，好好好，小知识 get。

更炸裂的是，就是连什么酒水饮料，哪个牌子的水乳面霜都能分清！

在现场，它不仅认出了这是雪花秀的产品，还科普了具体组成和用处，甚至纠正了大的那瓶不是眼霜是面霜……

此次新增的视觉能力，在常见视觉知识问答准确率 90%+、场景图文理解准确率也超 90%+。

这样一来，可以在出境购物了解商品信息的时候 " 哪里不懂问哪里 "，识别食物、玩游戏，陪孩子进行绘本伴读。

而量子位也第一时间进行了一波实测。目前这一功能在讯飞星火 APP 右上角「小星畅聊」里面，点击右边「摄像头」就能开启对话了。

随便拍了拍天空，说一句 " 今天天气不错 "，它会随声附和一句；还会给你推荐合肥推荐好玩的地方。

而将摄像头指向 1024 开发者论坛，它能准确解读出来，并给你推荐 ~

可以看到，此次的互動能力不管是在拟人度、情感性、理解能力等都有了很大的提升。而除了能看能听能说，你还可以捏一个自己——创建一个属于自己的虚拟人。

同样是讯飞星火 APP 右上角，点击「创建智能体」。

只需上传一张照片，创建自己的 AI 形象，包括性格职业信息人设等自定义設定；然后再根据一句话复刻语音，就能完成了，已支持 1300+ 种人设打造。

这语气这形象确实很像数字世界的自己，以后就可以派它来对接客户了。（不是）

目前，讯飞超拟人数字人的声音自然度可以达到 4.2 分。刘庆峰称，最好的播音员可以达到 5.0 分左右，真人水平一般为 4.0 分左右。

不过这些能力展示，也只是此次讯飞星火底座更新的一部分。

讯飞星火 4.0 Turbo 正式发布

今年讯飞星火大模型迎来重大更新——星火 4.0 Turbo 发布。

基础能力上，数学、代码、特定领網域长文本能力等七大能力方面已经全面超越 GPT-4 TUrbo，效率也相对提升 50%。

尤其是数学方面，刘庆峰透露，目前已经完成超长思维链、树搜索和自我反思评价等算法验证，预计今年年底将实现类 o1 的高难度数学能力显著提升。

代码能力层面，星火在 HumanEval 测试集上，星火 4.0 Turbo 性能已超越 GPT-4o。与此同时，他们还推出代码 7B 版本，支持代码生成、代码补全等任务。

在 14 项中英文主流测试集中，相较于 GPT-4o，星火 4.0 Turbo 实现了 9 项超越。

除此之外，还首次发布了多语言认知大模型，覆盖包括英语、俄语、日语、汉语、法语、西语、葡语、德语等多种语言。

在汽车、家电、办公、翻译等行业的任务场景中，多语言大模型效果超过了 GPT-4o

在一些垂直领網域，此次也有多款大模型首发和更新。

比如在医疗领網域的医学影像大模型，它能根据影像照片，帮助医生快速生成诊断报告。

还有智能汽车方面的端侧星火大模型，车载应用效果损失小于 1%，响应时间小于 40 毫秒。预计今年第四季度起，包括奇瑞、广汽、长城等多款搭载端侧大模型的车型将上市开售。

教育方面，讯飞星火联合中国教科院，发布了基于问题链的数学教师助手。它以问题链的方式来展开逻辑，包括核心问题、子问题、问题单元，这样层层推进，让学生学会主动思考、学会提问，从而改变学生的学习范式。

现在已经有来自 12 个区網域 50 多位数学教研员、400 多位教师参与到人机共创。

在底层智算平台上，科大讯飞、华为、合肥市大数据资产运营有限公司三方联手，打造国产超大规模智算平台" 飞星二号 "，目前已经正式启动。

去年飞星一号首次亮相，据刘庆峰介绍，一年以来 " 飞星一号 " 平台已经解决了超过 500 次的基础软硬體问题和模型适配问题。

大模型迎来规模化应用时代

整场发布会下来最强感知到的是，正如刘庆峰所言，大模型迎来规模化应用时代。

多模态虚拟人互動成为发布会的主角，各种垂直领網域大模型的真机演示成为发布会的重点。一切围绕着应用而来，围绕着行业而来。

可以看到的是，以讯飞星火为代表，国产大模型应用生态持续繁荣。发布会一开始，刘庆峰就亮出了他们过去一年 " 七个第一 " 的成绩单。

央国企得標第一，讯飞星火成为央国企大模型第一选择

教育医疗市场第一；

智能汽车市场第一；

大模型开发者生态第一；

智能硬體市场第一；

赋能科研应用第一；

赋能工业应用第一。

截至今年 10 月，讯飞已经与各头部企业共建了 20 多个行业大模型，覆盖 300+ 应用场景，所覆盖行业和场景数都位于国内第一位置。

值得一提的是，除了产业上的赋能，在科研行业，讯飞星火也持续在为高校提供服务。今年物理、化学诺奖都颁给了 AI 科学家，对此，刘庆峰表示：

AI for Science 带来科研范式的根本变革，正在成为科技发展的新引擎。

人工智能赋能科研工作的三个台阶：依托科研文献助手和代码助手提升基础工作效率，基于深度神经网络对科学任务进行精准建模，以及借助认知大模型学习领網域知识并辅助设计科研实验方案。

以星火科研助手为代表，它自去年底发布以来，已在中科院下属 116 个院所使用。此外还联合中国科技大学研发 " 化学大模型 "，联合中科院大连化学物理研究所研发 " 化工大模型 " 等等。

只有生态的繁荣，才能反哺技术持续进步。根据 IDC 研究报告和市场公开数据显示，科大讯飞在语音语义市占率中第一、大模型开发者规模第一，达 78.1 万。

接下来，科大讯飞计划将开放全场景资源，覆盖从技术能力到应用落地。他们还将牵头成立 AI 基金，用 5 亿创业基金推动开发者创业。

对于未来人工智能的产业发展，刘庆峰提出了他们自己行业参考。五个关键词：顶天立地、自主可控、通专结合、端云联动、软硬一体。

也只有把握这五个关键点，大模型才能真正解放生产力、释放想象力，带来全行业的范式变革。