今天小編分享的科學經驗:阿裡雲大模型上新!AI神器「通義聽悟」公測中:長視頻一秒總結,還能自動做筆記、翻字幕,歡迎閱讀。
又一個接入大模型能力的組會神器實用工具,開啟免費公測啦!
背後大模型,是阿裡的通義千問。至于為什麼說是組會神器嘛——
注意看,這是我的 B 站導師李沐老師,他正在帶同學們精讀一篇大模型論文。
不巧就在這時,老板催我抓緊搬磚。我只好默默摘下耳機,點開名為 "通義聽悟" 的插件,然後切換頁面。
你猜怎麼着?雖然我人不在 " 組會 " 現場,但聽悟已經幫我完整記錄下了組會内容。
甚至還幫我一鍵總結出了關鍵詞、全文摘要和學習要點。
簡單來說,這個剛剛接入大模型能力的 " 通義聽悟 ",是一個大模型版的聚焦音視頻内容的工作學習 AI 助手。
跟以往的錄音轉寫工具不同,它不只是能把錄音、視頻轉成文字這麼簡單。能一鍵總結全文不說,總結不同發言人觀點也能做到:
甚至還能當實時字幕翻譯來用:
看上去,不僅開組會好使,對于經常要處理一大堆錄音、熬夜跟各種國外發布會的量子位來說,也實屬日常工作新神器。
我們趕緊第一時間深入測試了一波。
通義聽悟上手實測
音頻内容的整理和分析,最基礎也是最重要的,就是轉寫的準确性。
Round 1,我們先上傳一個時長在 10 分鍾左右的中文視頻,看看聽悟與同類工具相比,在準确性方面表現如何。
基本上,AI 處理這種中等長度音視頻的速度很快,大概不到 2 分鍾就能轉寫完成。
先來看看聽悟的表現:
在這個 200 字左右的段落中,聽悟只出現了兩處錯誤:強 → 牆,都好處 → 恰到好處。像原子核、電荷、斥力這些物理名詞,聽悟都能弄明白。
我們用同一段視頻在飛書妙記上也進行了測試。基本問題也不大,但相比聽悟,飛書多了兩處錯誤,把其中一處 " 原子 " 寫成了 " 園子 ",把 " 斥力 " 聽成了 " 勢力 "。
有意思的是,聽悟犯的錯,飛書也一比一復刻了。看來這口鍋還得量子位某說話吞字的 up 主來背(手動狗頭)。
訊飛聽見,倒是分辨出了前兩位選手沒有識别出來的 " 恰到好處 "。但訊飛聽見基本上把 " 牆 " 全部都轉寫成了 " 強 ",還出現了 " 強的糖粒 " 這種神奇的搭配。另外,三位選手中,只有訊飛聽見把 " 電磁力 " 聽成了 " 電子力 "。
總體來說,中文的識别對這些 AI 工具來說難度不大。那麼在英文材料面前,它們又會表現如何?
我們上傳了一段馬斯克的最新訪談,内容是他與 OpenAI 過去的恩怨糾葛。
還是先來看聽悟給出的結果。在馬斯克的這一段回答中,聽悟沒有分辨出拉裡 · 佩奇的名字,除此之外基本都能識别正确。
值得一提的是,聽悟能夠直接将英文轉寫結果翻譯成中文,并将雙語對照顯示,翻譯質量也相當不錯。
飛書妙記則成功聽出了拉裡 · 佩奇的名字,不過和聽悟一樣,由于馬斯克整體語速較快并且有一些口語化的表達,存在一些小錯誤,比如把 "stay at his house" 寫成了 "say this house"。
訊飛聽見這邊,人名、連讀細節處理得都不錯,不過同樣存在被馬斯克的口語化表達誤導的情況,比如把 "long into the evening" 當成了 "longing to the evening"。
如此看來,在基礎能力語音識别方面,AI 工具們都已經達到了很高的準确率,在極高的效率面前,一些小問題已經瑕不掩瑜。
那麼,我們将難度再升一級,Round 2,來測試測試它們對 1 小時左右長視頻的總結能力。
測試視頻是一段 40 分鍾的圓桌讨論,主題是中國 AIGC 新機遇。參與圓桌讨論的共有 5 人。
聽悟這邊,從轉寫完成到 AI 提取關鍵詞、給出全文摘要,一共花了不到 5 分鍾的時間。
結果是醬嬸的:
不僅給出了關鍵詞,圓桌讨論的内容也總結得很到位,并且還給視頻劃分了關鍵點。
對比人類編輯摘錄的話題要點,我嗅到了一絲危機……
值得一提的是,針對不同嘉賓的發言,聽悟都能給出對應的發言總結。
同樣的題目抛給飛書妙記。目前,在内容總結方面,飛書妙記還只能給出關鍵詞。
會議紀要需要手動在轉寫文字上标注。
訊飛聽見基于星火認知大模型,也有能夠分析檔案内容的產品正在内測,不過需要填寫申請,排隊等待。(有内測資格的小夥伴歡迎分享體驗 ~)
在基礎的訊飛聽見中,目前沒有類似的總結功能。
看來這一輪測試:
不過要說在本次實測中,通義聽悟最令人感覺驚喜的,其實是一個 " 小 " 設計:
Chrome 插件功能。
無論是看英文視頻,看直播,還是上課開會,點開聽悟插件,就能實現音視頻的實時轉錄和翻譯。
就像開頭所展示的那樣,拿來當實時字幕用,延遲低,翻譯快,還有雙語對照功能,同時,錄音和轉寫文字都能一鍵保存下來,方便後續使用。
媽媽再也不用擔心我啃不下來英文視頻資料了。
另外,我還有個大膽的想法……
開組會的時候打開聽悟,開會兒小差再也不用怕被導師突然抽查了。
目前,聽悟已經和阿裡雲盤打通,存放在雲盤中的音視頻内容可以一鍵轉寫,在線播放雲盤視頻時還能自動顯示字幕。并且在企業版本中,AI 整理後的音視頻檔案将來還可以在内部快速分享。
聽悟官方還透露,接下來,聽悟還會持續上新大模型能力,比如直接抽取視頻内的 PPT 截圖、針對音視頻内容可以直接向 AI 提問……
關鍵是,公測福利現在人人可薅,每天登陸即可自動獲得 2 小時轉寫時長,阿裡雲官方微博、微信及各大平台社區還會發放大量 20 小時轉寫口令碼,并且時長均可疊加,一年内有效。
勤快點的羊毛大師,攢出 100 小時以上的免費時長不是夢(手動狗頭)。
背後技術:大語言模型 + 語音 SOTA
其實,在公測之前,通義聽悟就已經在阿裡内部精心打磨過了。
去年年底,也有量子位讀者拿到了聽悟内測體驗卡,當時版本中,已經有離線語音 / 視頻轉寫和實時轉寫的功能。
這次公測,聽悟主要是接入了通義千問大模型的摘要及對話能力。具體而言,是以通義千問大模型為基座,融合了研發團隊在推理、對齊和對話問答等方面的研究成果。
首先,如何準确抽取關鍵信息,是這類神器提升工作效率的關鍵。這就需要借助大模型的推理能力。
阿裡 AI 團隊在 2022 年提出了基于大語言模型的知識探測與推理利用框架Proton(Probing Turning from Large Language Models)。相關論文發表在 KDD2022 和 SIGIR2023 等國際頂會上。
該框架的核心思路在于,探測大模型的内部知識,以思維鏈為載體進行知識流動和利用。
在通用常識推理 CommonsenseQA2.0、物理常識推理 PIQA、數值常識推理 Numbersense 三大榜單上,Proton 曾先後取得第一。
在 TabFact(事實驗證)榜單上,Proton 憑借知識分解和可信思維鏈技術,首次實現了超越人類的效果。
其次,為了确保摘要内容和格式符合用戶預期,在對齊方面,聽悟還用上了ELHF,即基于人類反饋的高效對齊方法。
該方法僅需少量高質量人工反饋樣本,就能實現對齊。在模型效果主觀評測中,ELHF 能使模型勝率提高 20%。
在此之外,聽悟背後的研發團隊,還發布了首個中文超大規模文檔對話數據集Doc2Bot。該團隊提升模型問答能力的Re3G方法,已經入選 ICASSP 2023:該方法通過 Retrieve(檢索)、Rerank(重排序)、Refine(精調)和 Generate(生成)四個階段,能提升模型對用戶問題的理解、知識檢索和回復生成能力,在 Doc2Dial 和 Multi Doc2Dial 兩大文檔對話榜單中取得第一。
除了大模型能力,聽悟還是阿裡語音技術的集大成者。
其背後的語音識别模型Paraformer,來自阿裡達摩院,首次在工業級應用層面解決了端到端識别效果與效率兼顧的難題:
不僅在推理效率上較傳統模型提升 10 倍,剛推出時還 " 屠榜 " 多個權威數據集,刷新語音識别準确率 SOTA。在專業第三方全網公共雲中文語音識别評測 SpeechIO TIOBE 白盒測試中,目前,Paraformer-large 仍是準确率最高的中文語音識别模型。
Paraformer 是單輪非自回歸模型,由編碼器、預測器、采樣器、解碼器和損失函數這五個部分組成。
通過對預測器的創新設計,Paraformer 實現了對目标文字個數及對應聲學隐變量的精準預測。
另外,研究人員還引入了機器翻譯領網域中浏覽語言模型(GLM)的思路,設計了基于 GLM 的采樣器,增強了模型對上下文語義的建模。
同時,Paraformer 還使用了數萬小時、覆蓋豐富場景的超大規模工業數據集進行訓練,進一步提升了識别準确率。
而準确的多人讨論發言人區分,則得益于達摩院的CAM++說話人識别基礎模型。該模型采用基于密集型連接的時延網絡 D-TDNN,每一層的輸入均由前面所有層的輸出拼接而成,這種層級特征復用和時延網絡的一維卷積,可以顯著提高網絡的計算效率。
在行業主流的中英文測試集 VoxCeleb 和 CN-Celeb 上,CAM++ 均刷新了最優準确率。
大模型開卷,用戶受益
據中國科學技術信息研究所報告,據不完全統計,目前國内已經發布了 79 個大模型。
這種大模型開卷的趨勢下,AI 應用進化的速度再次進入到一個衝刺階段。
站在用戶的角度來說,喜聞樂見的局面正逐步形成:
大模型的 " 統籌 " 之下,各種 AI 技術開始在應用側百花齊放,使得工具越來越高效,越來越智能。
從一個斜杠就能幫你自動寫完工作計劃的智能文檔,到快速幫你總結要素的音視頻記錄和分析工具,生成式大模型這朵 AGI 的火花,正在讓越來越多的人感受到 AI 的魔力。
與此同時,對于科技企業來說,新的挑戰和新的機會,無疑也已經出現。
挑戰是,所有產品都将被大模型的風暴席卷,技術創新已經成為了無可回避的關鍵問題。
機會是,對于新的殺手級應用而言,重寫市場格局的時間點已經到來。而誰能拔得頭籌,就要看誰的技術準備更充分,誰的技術進化速度更快了。
無論如何,技術開卷,終将是用戶受益。
文章的最後,我們也來送上一份羊毛,注冊通義聽悟,輸入專屬口令 "量子位",即可領取免費轉寫時長 ~
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>