訊飛版《Her》長臉了！多模态虛拟人表情動作超逼真，一張圖一句話就能DIY自己

今天小編分享的科學經驗：訊飛版《Her》長臉了！多模态虛拟人表情動作超逼真，一張圖一句話就能DIY自己，歡迎閱讀。

跟訊飛星火 AI 女神視頻面對面，國產《Her》從此有了臉！

不管跟你科普面霜，推薦酒水禮物，還能看圖說話講故事，都能輕松拿捏。

你有看過孫悟空奧特曼一起打怪獸嗎？（狗頭）

即便是這麼一個不着調的 " 名場面 "，" 她 " 也能硬講出來一段生動的故事來。嗯嗯論講故事還得是 AI 來 ~

除此之外，你也可以自己 DIY 一個虛拟人。只需一張照片 + 一句話，就能創造一個 " 自己 "。

（白小交從此有了臉）

目前，該功能已經在訊飛星火 APP 上線。

而背後的底座大模型也迎來重大更新——訊飛星火 4.0 Turbo 正式發布，七大核心能力全面超過 GPT-4 Turbo，數學和代碼能力超越 GPT-4o，國内外中英文 14 項主流測試集中訊飛星火 4.0 Turbo 實現 9 項第一。

與此同時，國產超大規模智算平台 " 飛星二号 " 正式啟動。

跟訊飛星火視頻面對面

此次發布會的重頭戲，就是訊飛星火在多模态視覺、超拟人虛拟人上互動能力的提升。

在大模型的驅動下，我們正在迎來一個嶄新的萬物智聯時代。新時代下的互動标準，科大訊飛有自己的定義。

董事長劉慶峰介紹道，在已有遠場高噪、全雙工、多語種多語言等基礎上，還包括多模态、超拟人、個性化等特點。

其實在今年 8 月，訊飛版《Her》就已經發布。這次語音能力更新基礎上，還具備了視覺能力、并擁有了自己的形象。

簡單來說，實現了從語音互動到音視頻流的實時多模态互動的跨越，情感感知（包括項環境、文字、物體、姿态、着裝等）更全面、任務理解（包括語音、手勢、行為、情緒等）更精準。

在現場，訊飛研究院院長劉聰率先展示了語音能力，除了本身語氣和情感度更加逼真以外，它還能跟你玩角色扮演遊戲。

模拟個孫悟空、小豬佩奇都不在話下 ~

俺老孫一路只顧得披荊斬棘，降妖除魔。要說有趣，當然是捉弄八戒那呆子最有趣！

在此基礎之上，訊飛版 Her 現在能面對面聊天，它能根據語義、語音節奏來自動生成表情和動作。

比如聽到幾百萬人在線上看表演時，一些小驚訝、開心激動的表情。

據介紹，這也是業内率先實現「口唇、表情、動作」語義對齊、貫穿的超拟人數字人。

而一旦打開攝像頭，它還能基于動态的視頻畫面來進行對話交流。

比如識别各種物體，各種花草、建築還有小玩具。

龍船花，好好好，小知識 get。

更炸裂的是，就是連什麼酒水飲料，哪個牌子的水乳面霜都能分清！

在現場，它不僅認出了這是雪花秀的產品，還科普了具體組成和用處，甚至糾正了大的那瓶不是眼霜是面霜……

此次新增的視覺能力，在常見視覺知識問答準确率 90%+、場景圖文理解準确率也超 90%+。

這樣一來，可以在出境購物了解商品信息的時候 " 哪裡不懂問哪裡 "，識别食物、玩遊戲，陪孩子進行繪本伴讀。

而量子位也第一時間進行了一波實測。目前這一功能在訊飛星火 APP 右上角「小星暢聊」裡面，點擊右邊「攝像頭」就能開啟對話了。

随便拍了拍天空，說一句 " 今天天氣不錯 "，它會随聲附和一句；還會給你推薦合肥推薦好玩的地方。

而将攝像頭指向 1024 開發者論壇，它能準确解讀出來，并給你推薦 ~

可以看到，此次的互動能力不管是在拟人度、情感性、理解能力等都有了很大的提升。而除了能看能聽能說，你還可以捏一個自己——創建一個屬于自己的虛拟人。

同樣是訊飛星火 APP 右上角，點擊「創建智能體」。

只需上傳一張照片，創建自己的 AI 形象，包括性格職業信息人設等自定義設定；然後再根據一句話復刻語音，就能完成了，已支持 1300+ 種人設打造。

這語氣這形象确實很像數字世界的自己，以後就可以派它來對接客戶了。（不是）

目前，訊飛超拟人數字人的聲音自然度可以達到 4.2 分。劉慶峰稱，最好的播音員可以達到 5.0 分左右，真人水平一般為 4.0 分左右。

不過這些能力展示，也只是此次訊飛星火底座更新的一部分。

訊飛星火 4.0 Turbo 正式發布

今年訊飛星火大模型迎來重大更新——星火 4.0 Turbo 發布。

基礎能力上，數學、代碼、特定領網域長文本能力等七大能力方面已經全面超越 GPT-4 TUrbo，效率也相對提升 50%。

尤其是數學方面，劉慶峰透露，目前已經完成超長思維鏈、樹搜索和自我反思評價等算法驗證，預計今年年底将實現類 o1 的高難度數學能力顯著提升。

代碼能力層面，星火在 HumanEval 測試集上，星火 4.0 Turbo 性能已超越 GPT-4o。與此同時，他們還推出代碼 7B 版本，支持代碼生成、代碼補全等任務。

在 14 項中英文主流測試集中，相較于 GPT-4o，星火 4.0 Turbo 實現了 9 項超越。

除此之外，還首次發布了多語言認知大模型，覆蓋包括英語、俄語、日語、漢語、法語、西語、葡語、德語等多種語言。

在汽車、家電、辦公、翻譯等行業的任務場景中，多語言大模型效果超過了 GPT-4o

在一些垂直領網域，此次也有多款大模型首發和更新。

比如在醫療領網域的醫學影像大模型，它能根據影像照片，幫助醫生快速生成診斷報告。

還有智能汽車方面的端側星火大模型，車載應用效果損失小于 1%，響應時間小于 40 毫秒。預計今年第四季度起，包括奇瑞、廣汽、長城等多款搭載端側大模型的車型将上市開售。

教育方面，訊飛星火聯合中國教科院，發布了基于問題鏈的數學教師助手。它以問題鏈的方式來展開邏輯，包括核心問題、子問題、問題單元，這樣層層推進，讓學生學會主動思考、學會提問，從而改變學生的學習範式。

現在已經有來自 12 個區網域 50 多位數學教研員、400 多位教師參與到人機共創。

在底層智算平台上，科大訊飛、華為、合肥市大數據資產運營有限公司三方聯手，打造國產超大規模智算平台" 飛星二号 "，目前已經正式啟動。

去年飛星一号首次亮相，據劉慶峰介紹，一年以來 " 飛星一号 " 平台已經解決了超過 500 次的基礎軟硬體問題和模型适配問題。

大模型迎來規模化應用時代

整場發布會下來最強感知到的是，正如劉慶峰所言，大模型迎來規模化應用時代。

多模态虛拟人互動成為發布會的主角，各種垂直領網域大模型的真機演示成為發布會的重點。一切圍繞着應用而來，圍繞着行業而來。

可以看到的是，以訊飛星火為代表，國產大模型應用生态持續繁榮。發布會一開始，劉慶峰就亮出了他們過去一年 " 七個第一 " 的成績單。

央國企得標第一，訊飛星火成為央國企大模型第一選擇

教育醫療市場第一；

智能汽車市場第一；

大模型開發者生态第一；

智能硬體市場第一；

賦能科研應用第一；

賦能工業應用第一。

截至今年 10 月，訊飛已經與各頭部企業共建了 20 多個行業大模型，覆蓋 300+ 應用場景，所覆蓋行業和場景數都位于國内第一位置。

值得一提的是，除了產業上的賦能，在科研行業，訊飛星火也持續在為高校提供服務。今年物理、化學諾獎都頒給了 AI 科學家，對此，劉慶峰表示：

AI for Science 帶來科研範式的根本變革，正在成為科技發展的新引擎。

人工智能賦能科研工作的三個台階：依托科研文獻助手和代碼助手提升基礎工作效率，基于深度神經網絡對科學任務進行精準建模，以及借助認知大模型學習領網域知識并輔助設計科研實驗方案。

以星火科研助手為代表，它自去年底發布以來，已在中科院下屬 116 個院所使用。此外還聯合中國科技大學研發 " 化學大模型 "，聯合中科院大連化學物理研究所研發 " 化工大模型 " 等等。

只有生态的繁榮，才能反哺技術持續進步。根據 IDC 研究報告和市場公開數據顯示，科大訊飛在語音語義市占率中第一、大模型開發者規模第一，達 78.1 萬。

接下來，科大訊飛計劃将開放全場景資源，覆蓋從技術能力到應用落地。他們還将牽頭成立 AI 基金，用 5 億創業基金推動開發者創業。

對于未來人工智能的產業發展，劉慶峰提出了他們自己行業參考。五個關鍵詞：頂天立地、自主可控、通專結合、端雲聯動、軟硬一體。

也只有把握這五個關鍵點，大模型才能真正解放生產力、釋放想象力，帶來全行業的範式變革。