阿裏雲大模型上新！AI神器「通義聽悟」公測中：長視頻一秒總結，還能自動做筆記、翻字幕

今天小編分享的科學經驗：阿裏雲大模型上新！AI神器「通義聽悟」公測中：長視頻一秒總結，還能自動做筆記、翻字幕，歡迎閲讀。

又一個接入大模型能力的組會神器實用工具，開啓免費公測啦！

背後大模型，是阿裏的通義千問。至于為什麼説是組會神器嘛——

注意看，這是我的 B 站導師李沐老師，他正在帶同學們精讀一篇大模型論文。

不巧就在這時，老板催我抓緊搬磚。我只好默默摘下耳機，點開名為 "通義聽悟" 的插件，然後切換頁面。

你猜怎麼着？雖然我人不在 " 組會 " 現場，但聽悟已經幫我完整記錄下了組會内容。

甚至還幫我一鍵總結出了關鍵詞、全文摘要和學習要點。

簡單來説，這個剛剛接入大模型能力的 " 通義聽悟 "，是一個大模型版的聚焦音視頻内容的工作學習 AI 助手。

跟以往的錄音轉寫工具不同，它不只是能把錄音、視頻轉成文字這麼簡單。能一鍵總結全文不説，總結不同發言人觀點也能做到：

甚至還能當實時字幕翻譯來用：

看上去，不僅開組會好使，對于經常要處理一大堆錄音、熬夜跟各種國外發布會的量子位來説，也實屬日常工作新神器。

我們趕緊第一時間深入測試了一波。

通義聽悟上手實測

音頻内容的整理和分析，最基礎也是最重要的，就是轉寫的準确性。

Round 1，我們先上傳一個時長在 10 分鍾左右的中文視頻，看看聽悟與同類工具相比，在準确性方面表現如何。

基本上，AI 處理這種中等長度音視頻的速度很快，大概不到 2 分鍾就能轉寫完成。

先來看看聽悟的表現：

在這個 200 字左右的段落中，聽悟只出現了兩處錯誤：強 → 牆，都好處 → 恰到好處。像原子核、電荷、斥力這些物理名詞，聽悟都能弄明白。

我們用同一段視頻在飛書妙記上也進行了測試。基本問題也不大，但相比聽悟，飛書多了兩處錯誤，把其中一處 " 原子 " 寫成了 " 園子 "，把 " 斥力 " 聽成了 " 勢力 "。

有意思的是，聽悟犯的錯，飛書也一比一復刻了。看來這口鍋還得量子位某説話吞字的 up 主來背（手動狗頭）。

訊飛聽見，倒是分辨出了前兩位選手沒有識别出來的 " 恰到好處 "。但訊飛聽見基本上把 " 牆 " 全部都轉寫成了 " 強 "，還出現了 " 強的糖粒 " 這種神奇的搭配。另外，三位選手中，只有訊飛聽見把 " 電磁力 " 聽成了 " 電子力 "。

總體來説，中文的識别對這些 AI 工具來説難度不大。那麼在英文材料面前，它們又會表現如何？

我們上傳了一段馬斯克的最新訪談，内容是他與 OpenAI 過去的恩怨糾葛。

還是先來看聽悟給出的結果。在馬斯克的這一段回答中，聽悟沒有分辨出拉裏 · 佩奇的名字，除此之外基本都能識别正确。

值得一提的是，聽悟能夠直接将英文轉寫結果翻譯成中文，并将雙語對照顯示，翻譯質量也相當不錯。

飛書妙記則成功聽出了拉裏 · 佩奇的名字，不過和聽悟一樣，由于馬斯克整體語速較快并且有一些口語化的表達，存在一些小錯誤，比如把 "stay at his house" 寫成了 "say this house"。

訊飛聽見這邊，人名、連讀細節處理得都不錯，不過同樣存在被馬斯克的口語化表達誤導的情況，比如把 "long into the evening" 當成了 "longing to the evening"。

如此看來，在基礎能力語音識别方面，AI 工具們都已經達到了很高的準确率，在極高的效率面前，一些小問題已經瑕不掩瑜。

那麼，我們将難度再升一級，Round 2，來測試測試它們對 1 小時左右長視頻的總結能力。

測試視頻是一段 40 分鍾的圓桌讨論，主題是中國 AIGC 新機遇。參與圓桌讨論的共有 5 人。

聽悟這邊，從轉寫完成到 AI 提取關鍵詞、給出全文摘要，一共花了不到 5 分鍾的時間。

結果是醬嬸的：

不僅給出了關鍵詞，圓桌讨論的内容也總結得很到位，并且還給視頻劃分了關鍵點。

對比人類編輯摘錄的話題要點，我嗅到了一絲危機……

值得一提的是，針對不同嘉賓的發言，聽悟都能給出對應的發言總結。

同樣的題目抛給飛書妙記。目前，在内容總結方面，飛書妙記還只能給出關鍵詞。

會議紀要需要手動在轉寫文字上标注。

訊飛聽見基于星火認知大模型，也有能夠分析檔案内容的產品正在内測，不過需要填寫申請，排隊等待。（有内測資格的小夥伴歡迎分享體驗 ~）

在基礎的訊飛聽見中，目前沒有類似的總結功能。

看來這一輪測試：

不過要説在本次實測中，通義聽悟最令人感覺驚喜的，其實是一個 " 小 " 設計：

Chrome 插件功能。

無論是看英文視頻，看直播，還是上課開會，點開聽悟插件，就能實現音視頻的實時轉錄和翻譯。

就像開頭所展示的那樣，拿來當實時字幕用，延遲低，翻譯快，還有雙語對照功能，同時，錄音和轉寫文字都能一鍵保存下來，方便後續使用。

媽媽再也不用擔心我啃不下來英文視頻資料了。

另外，我還有個大膽的想法……

開組會的時候打開聽悟，開會兒小差再也不用怕被導師突然抽查了。

目前，聽悟已經和阿裏雲盤打通，存放在雲盤中的音視頻内容可以一鍵轉寫，在線播放雲盤視頻時還能自動顯示字幕。并且在企業版本中，AI 整理後的音視頻檔案将來還可以在内部快速分享。

聽悟官方還透露，接下來，聽悟還會持續上新大模型能力，比如直接抽取視頻内的 PPT 截圖、針對音視頻内容可以直接向 AI 提問……

關鍵是，公測福利現在人人可薅，每天登陸即可自動獲得 2 小時轉寫時長，阿裏雲官方微博、微信及各大平台社區還會發放大量 20 小時轉寫口令碼，并且時長均可疊加，一年内有效。

勤快點的羊毛大師，攢出 100 小時以上的免費時長不是夢（手動狗頭）。

背後技術：大語言模型 + 語音 SOTA

其實，在公測之前，通義聽悟就已經在阿裏内部精心打磨過了。

去年年底，也有量子位讀者拿到了聽悟内測體驗卡，當時版本中，已經有離線語音 / 視頻轉寫和實時轉寫的功能。

這次公測，聽悟主要是接入了通義千問大模型的摘要及對話能力。具體而言，是以通義千問大模型為基座，融合了研發團隊在推理、對齊和對話問答等方面的研究成果。

首先，如何準确抽取關鍵信息，是這類神器提升工作效率的關鍵。這就需要借助大模型的推理能力。

阿裏 AI 團隊在 2022 年提出了基于大語言模型的知識探測與推理利用框架Proton（Probing Turning from Large Language Models）。相關論文發表在 KDD2022 和 SIGIR2023 等國際頂會上。

該框架的核心思路在于，探測大模型的内部知識，以思維鏈為載體進行知識流動和利用。

在通用常識推理 CommonsenseQA2.0、物理常識推理 PIQA、數值常識推理 Numbersense 三大榜單上，Proton 曾先後取得第一。

在 TabFact（事實驗證）榜單上，Proton 憑借知識分解和可信思維鏈技術，首次實現了超越人類的效果。

其次，為了确保摘要内容和格式符合用户預期，在對齊方面，聽悟還用上了ELHF，即基于人類反饋的高效對齊方法。

該方法僅需少量高質量人工反饋樣本，就能實現對齊。在模型效果主觀評測中，ELHF 能使模型勝率提高 20%。

在此之外，聽悟背後的研發團隊，還發布了首個中文超大規模文檔對話數據集Doc2Bot。該團隊提升模型問答能力的Re3G方法，已經入選 ICASSP 2023：該方法通過 Retrieve（檢索）、Rerank（重排序）、Refine（精調）和 Generate（生成）四個階段，能提升模型對用户問題的理解、知識檢索和回復生成能力，在 Doc2Dial 和 Multi Doc2Dial 兩大文檔對話榜單中取得第一。

除了大模型能力，聽悟還是阿裏語音技術的集大成者。

其背後的語音識别模型Paraformer，來自阿裏達摩院，首次在工業級應用層面解決了端到端識别效果與效率兼顧的難題：

不僅在推理效率上較傳統模型提升 10 倍，剛推出時還 " 屠榜 " 多個權威數據集，刷新語音識别準确率 SOTA。在專業第三方全網公共雲中文語音識别評測 SpeechIO TIOBE 白盒測試中，目前，Paraformer-large 仍是準确率最高的中文語音識别模型。