大模型下探音視頻AI市場，戰争才剛剛開始

今天小編分享的财經經驗：大模型下探音視頻AI市場，戰争才剛剛開始，歡迎閲讀。

圖片來源：視覺中國

大模型面向產業落地的難點是什麼？

1. 當下，基于生成式的人工智能技術（AIGC），仍然需要海量數據進行訓練才能得到一個回復質量較高的模型算法，初期訓練成本非常之高。這對于傾向自研基礎大模型的企業是必須要過的門檻。

2. 對于給出算法更加精準、訓練成本更低、對于用户調取更方便的模型，這一方面的提升空間較為明晰。在媒體、遊戲、營銷等行業已經看到比較多典型的内容生成場景，但 AIGC 技術并不能适用于所有場景，且在商業層面的實際回報率尚未明朗。

3. 從市場需求的共性來看，企業對 AI 技術更關心，關心怎麼跟業務融合，但同時也會有些擔憂或緊張，新技術會不會對業務帶來衝擊。與此同時，各國對人工智能和數據獲取監管的法律條文，以及對 " 類 ChatGPT" 的支持力度，也在反映這種觀望态度。

過去半年，整個科技圈有關 AIGC 創新的新聞鋪天蓋地，但一頓操作猛如虎之後，還有更多仍在 " 來的路上 "。

6 月 1 日，阿裏雲宣布通義大模型進展，聚焦音視頻 AI 的 " 通義聽悟 " 正式亮相，成為國内首個開放公測的大模型應用產品。

通義聽悟其前身是早在 2021 年研發投入市場的 " 聽悟 " 產品，此次除了集成阿裏通義千問大模型的理解與摘要能力外，還融合了阿裏最先進的語音語義、多模态算法等技術。公測期間，聽悟用户可通過每日登陸等多種任務領取免費轉寫時長，阿裏雲官方多個平台也會放大量 20 小時的轉寫口令碼。除此之外，聽悟企業版還在與釘釘 " 釘閃記 "、誇克 APP、阿裏雲盤等進行能力進行集成。

此舉對于國内的 AI 語音技術服務商以及 " 類 ChatGPT" 應用企業，并不是個好消息。

從聽悟到通義聽悟

結合當前的官方定義來看，通義聽悟具備 " 聽 " 與 " 悟 " 能力，即 " 聽力好 "，能高準确度生成會議記錄、區分不同發言人，" 悟性高 "，可形成摘要、總結全文及每個發言人觀點、整理關注重點和待辦事項。

這其實也明确了外界對 AI 音視頻技術產品的一個重要期待：要讓 AI 理解人類，并且以人類可理解的方式表達出來。AI 理解人類，意味着不只要聽到表面語義，甚至還要理解人的情緒和意圖；AI 表達，則意味着在文本生成、内容摘要、風格及情緒表達上要有所突破。同時結合多模态技術，不只是文字、音頻，還有影像、視頻等方式傳遞給 AI 理解。

這個過程，在沒有大模型技術應用前，就已經存在諸多細節性挑戰。但在阿裏雲 CTO 周靖人看來，有了通義大模型的加持，阿裏将多年積累的語音技術，以及多模态的能力有機結合起來，最終形成今天的通義聽悟。

" ‘知其然不知所以然’是產品沒有大模型的局限性，過去的聽悟只能做到将語音文字轉錄出來，但背後的整理、理解、信息收取，是依靠人來完成的。之前也曾用過小模型，但結果并不好。" 周靖人在會後的交流活動中指出。

以語音識别 TTS 為例，聽悟内置了語音識别模型 Paraformer，它首次在工業級應用層面解決了端到端識别效果與效率兼顧的難題。配合 GPU 推理，不同版本的 Paraformer 可将推理效率提升 5～10 倍，同時，Paraformer 使用了 6 倍下采樣的低幀率建模方案，可将計算量降低近 6 倍，支持大模型的高效推理。

説話人識别模型 CAM++，相較于如 ECAPA-TDNN 和 ResNet 模型，在準确識别和高效計算的同時，還實現了整體優解。在行業主流的中英文測試集 VoxCeleb 和 CN-Celeb 上均刷新了最優準确率，并且在計算效率和推理速度上有着明顯優勢。

而此次聽悟上線測試的通義千問大模型的信息摘要能力，為保證抽取出的摘要信息的事實準确，大幅度減少幻覺，團隊還融合了在推理、對齊和對話問答等方面的研究成果。如在推理能力方面，2022 年團隊提出了基于大語言模型的知識探測與推理利用的框架 Proton。

對手會是訊飛嗎？

業内普遍一個聲音是，" 很多產品因為大模型的到來會重新再做一遍 "，接入大模型能力，或将改變的是產品的業務邏輯、互動模式，甚至是收費模式。

從通義聽悟當前的產品界面上看，針對的仍然是比較高頻的場景，往往跟對話或交流相關，如上述提及的總結、翻譯、内容摘取，其本質上是對内容語義的理解輸出。據官方描述，其定位為一款工作學習 AI 助手，瞄準具有高知識附加值的音視頻内容場景，如開會、上課、訪談、培訓、面試、直播、看視頻、聽播客等，能通過大模型等最新 AI 技術快速提煉和沉澱知識。

通義聽悟的技術負責人鄢志傑一直都在從事智能語音互動相關工作，他解釋道，" 目前展示的視頻轉文字，仍然是将視頻裏的音頻進行文字轉換，尚未展示出視頻直接轉文字的理解過程。未來會進行多模态的理解，不僅要有音頻轉文字，還要輔助以視頻和視覺的模态對内容進行更好的理解。"

下一步，通義聽悟會被各種各樣的業務系統集成，集成到智能化服務中，開發者可根據實際場景，最終打造基于業務場景的 MaaS 服務，" 通義聽悟一定會推出企業版，為企業場景所定制，每個企業也都會有不同的需求，也有數據安全、數據隐私等方面的要求。" 周靖人補充道。

那麼，通義聽悟的對手會是訊飛嗎？

事實上，音視頻是人機互動的重要入口，市面上成熟的 AI 音視頻產品并不在少數，除了訊飛、搜狗、網易有道等具備軟硬體能力的服務商外，飛書妙記、騰訊會議等互聯網公司孵化的企業辦公生產力工具，也同樣具備相似的能力。可能的區别在于，背後的 AI 技術邏輯，是否會因大模型的到來而徹底改變。

科大訊飛于上月發布星火大模型，其中軟體產品訊飛聽見會寫已經搭載大模型開放使用，在收費模式上已經給市場參考标準——根據單次 AI 能力的使用（單次字數不超過 8000 字）按月 / 季 / 年會員收費。

互聯網公司在這方面的積累也從未缺席，在不斷豐富 AI 技術體系的同時，也在迅速推進大模型 + 的創新。例如從早期的 iDST 實驗室到達摩院，阿裏 2019 年開始投入大模型，2021 年訓練實現 10 萬億參數的多模态大模型 M6，2022 年發布通義大模型，到如今的通義千問、通義聽悟已經在逐步產業化融合。

《中國人工智能大模型地圖研究報告》指出，據不完全統計，中國 10 億級參數規模以上大模型已發布了 79 個，特别是在自然語言理解、機器視覺、多模态等方面，出現了多個在行業有影響力的大模型。上述提及的網易有道則基于教育場景推出了 " 子曰 " 大模型，出門問問的 " 序列猴子 " 則面向多模态生成能力的大語言模型……

可見，能容納後來者的賽道，依然存在尚未挖掘的價值空間，更何況大模型将帶來新的變量。

（本文首發钛媒體 APP，作者 | 楊麗）

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App