今天小編分享的科學經驗:訊飛版《Her》長臉了!多模态虛拟人表情動作超逼真,一張圖一句話就能DIY自己,歡迎閱讀。
跟訊飛星火 AI 女神視頻面對面,國產《Her》從此有了臉!
不管跟你科普面霜,推薦酒水禮物,還能看圖說話講故事,都能輕松拿捏。
你有看過孫悟空奧特曼一起打怪獸嗎?(狗頭)
即便是這麼一個不着調的 " 名場面 "," 她 " 也能硬講出來一段生動的故事來。嗯嗯論講故事還得是 AI 來 ~
除此之外,你也可以自己 DIY 一個虛拟人。只需一張照片 + 一句話,就能創造一個 " 自己 "。
(白小交從此有了臉)
目前,該功能已經在訊飛星火 APP 上線。
而背後的底座大模型也迎來重大更新——訊飛星火 4.0 Turbo 正式發布,七大核心能力全面超過 GPT-4 Turbo,數學和代碼能力超越 GPT-4o,國内外中英文 14 項主流測試集中訊飛星火 4.0 Turbo 實現 9 項第一。
與此同時,國產超大規模智算平台 " 飛星二号 " 正式啟動。
跟訊飛星火視頻面對面
此次發布會的重頭戲,就是訊飛星火在多模态視覺、超拟人虛拟人上互動能力的提升。
在大模型的驅動下,我們正在迎來一個嶄新的萬物智聯時代。新時代下的互動标準,科大訊飛有自己的定義。
董事長劉慶峰介紹道,在已有遠場高噪、全雙工、多語種多語言等基礎上,還包括多模态、超拟人、個性化等特點。
其實在今年 8 月,訊飛版《Her》就已經發布。這次語音能力更新基礎上,還具備了視覺能力、并擁有了自己的形象。
簡單來說,實現了從語音互動到音視頻流的實時多模态互動的跨越,情感感知(包括項環境、文字、物體、姿态、着裝等)更全面、任務理解(包括語音、手勢、行為、情緒等)更精準。
在現場,訊飛研究院院長劉聰率先展示了語音能力,除了本身語氣和情感度更加逼真以外,它還能跟你玩角色扮演遊戲。
模拟個孫悟空、小豬佩奇都不在話下 ~
俺老孫一路只顧得披荊斬棘,降妖除魔。要說有趣,當然是捉弄八戒那呆子最有趣!
在此基礎之上,訊飛版 Her 現在能面對面聊天,它能根據語義、語音節奏來自動生成表情和動作。
比如聽到幾百萬人在線上看表演時,一些小驚訝、開心激動的表情。
據介紹,這也是業内率先實現「口唇、表情、動作」語義對齊、貫穿的超拟人數字人。
而一旦打開攝像頭,它還能基于動态的視頻畫面來進行對話交流。
比如識别各種物體,各種花草、建築還有小玩具。
龍船花,好好好,小知識 get。
更炸裂的是,就是連什麼酒水飲料,哪個牌子的水乳面霜都能分清!
在現場,它不僅認出了這是雪花秀的產品,還科普了具體組成和用處,甚至糾正了大的那瓶不是眼霜是面霜……
此次新增的視覺能力,在常見視覺知識問答準确率 90%+、場景圖文理解準确率也超 90%+。
這樣一來,可以在出境購物了解商品信息的時候 " 哪裡不懂問哪裡 ",識别食物、玩遊戲,陪孩子進行繪本伴讀。
而量子位也第一時間進行了一波實測。目前這一功能在訊飛星火 APP 右上角「小星暢聊」裡面,點擊右邊「攝像頭」就能開啟對話了。
随便拍了拍天空,說一句 " 今天天氣不錯 ",它會随聲附和一句;還會給你推薦合肥推薦好玩的地方。
而将攝像頭指向 1024 開發者論壇,它能準确解讀出來,并給你推薦 ~
可以看到,此次的互動能力不管是在拟人度、情感性、理解能力等都有了很大的提升。而除了能看能聽能說,你還可以捏一個自己——創建一個屬于自己的虛拟人。
同樣是訊飛星火 APP 右上角,點擊「創建智能體」。
只需上傳一張照片,創建自己的 AI 形象,包括性格職業信息人設等自定義設定;然後再根據一句話復刻語音,就能完成了,已支持 1300+ 種人設打造。
這語氣這形象确實很像數字世界的自己,以後就可以派它來對接客戶了。(不是)
目前,訊飛超拟人數字人的聲音自然度可以達到 4.2 分。劉慶峰稱,最好的播音員可以達到 5.0 分左右,真人水平一般為 4.0 分左右。
不過這些能力展示,也只是此次訊飛星火底座更新的一部分。
訊飛星火 4.0 Turbo 正式發布
今年訊飛星火大模型迎來重大更新——星火 4.0 Turbo 發布。
基礎能力上,數學、代碼、特定領網域長文本能力等七大能力方面已經全面超越 GPT-4 TUrbo,效率也相對提升 50%。
尤其是數學方面,劉慶峰透露,目前已經完成超長思維鏈、樹搜索和自我反思評價等算法驗證,預計今年年底将實現類 o1 的高難度數學能力顯著提升。
代碼能力層面,星火在 HumanEval 測試集上,星火 4.0 Turbo 性能已超越 GPT-4o。與此同時,他們還推出代碼 7B 版本,支持代碼生成、代碼補全等任務。
在 14 項中英文主流測試集中,相較于 GPT-4o,星火 4.0 Turbo 實現了 9 項超越。
除此之外,還首次發布了多語言認知大模型,覆蓋包括英語、俄語、日語、漢語、法語、西語、葡語、德語等多種語言。
在汽車、家電、辦公、翻譯等行業的任務場景中,多語言大模型效果超過了 GPT-4o
在一些垂直領網域,此次也有多款大模型首發和更新。
比如在醫療領網域的醫學影像大模型,它能根據影像照片,幫助醫生快速生成診斷報告。
還有智能汽車方面的端側星火大模型,車載應用效果損失小于 1%,響應時間小于 40 毫秒。預計今年第四季度起,包括奇瑞、廣汽、長城等多款搭載端側大模型的車型将上市開售。
教育方面,訊飛星火聯合中國教科院,發布了基于問題鏈的數學教師助手。它以問題鏈的方式來展開邏輯,包括核心問題、子問題、問題單元,這樣層層推進,讓學生學會主動思考、學會提問,從而改變學生的學習範式。
現在已經有來自 12 個區網域 50 多位數學教研員、400 多位教師參與到人機共創。
在底層智算平台上,科大訊飛、華為、合肥市大數據資產運營有限公司三方聯手,打造國產超大規模智算平台" 飛星二号 ",目前已經正式啟動。
去年飛星一号首次亮相,據劉慶峰介紹,一年以來 " 飛星一号 " 平台已經解決了超過 500 次的基礎軟硬體問題和模型适配問題。
大模型迎來規模化應用時代
整場發布會下來最強感知到的是,正如劉慶峰所言,大模型迎來規模化應用時代。
多模态虛拟人互動成為發布會的主角,各種垂直領網域大模型的真機演示成為發布會的重點。一切圍繞着應用而來,圍繞着行業而來。
可以看到的是,以訊飛星火為代表,國產大模型應用生态持續繁榮。發布會一開始,劉慶峰就亮出了他們過去一年 " 七個第一 " 的成績單。
央國企得標第一,訊飛星火成為央國企大模型第一選擇
教育醫療市場第一;
智能汽車市場第一;
大模型開發者生态第一;
智能硬體市場第一;
賦能科研應用第一;
賦能工業應用第一。
截至今年 10 月,訊飛已經與各頭部企業共建了 20 多個行業大模型,覆蓋 300+ 應用場景,所覆蓋行業和場景數都位于國内第一位置。
值得一提的是,除了產業上的賦能,在科研行業,訊飛星火也持續在為高校提供服務。今年物理、化學諾獎都頒給了 AI 科學家,對此,劉慶峰表示:
AI for Science 帶來科研範式的根本變革,正在成為科技發展的新引擎。
人工智能賦能科研工作的三個台階:依托科研文獻助手和代碼助手提升基礎工作效率,基于深度神經網絡對科學任務進行精準建模,以及借助認知大模型學習領網域知識并輔助設計科研實驗方案。
以星火科研助手為代表,它自去年底發布以來,已在中科院下屬 116 個院所使用。此外還聯合中國科技大學研發 " 化學大模型 ",聯合中科院大連化學物理研究所研發 " 化工大模型 " 等等。
只有生态的繁榮,才能反哺技術持續進步。根據 IDC 研究報告和市場公開數據顯示,科大訊飛在語音語義市占率中第一、大模型開發者規模第一,達 78.1 萬。
接下來,科大訊飛計劃将開放全場景資源,覆蓋從技術能力到應用落地。他們還将牽頭成立 AI 基金,用 5 億創業基金推動開發者創業。
對于未來人工智能的產業發展,劉慶峰提出了他們自己行業參考。五個關鍵詞:頂天立地、自主可控、通專結合、端雲聯動、軟硬一體。
也只有把握這五個關鍵點,大模型才能真正解放生產力、釋放想象力,帶來全行業的範式變革。