文檔智能，“AI改變生活”的新注解

今天小編分享的互聯網經驗：文檔智能，“AI改變生活”的新注解，歡迎閲讀。

當代職場人，" 随地移動辦公 " 是一種常态。

前一秒還在 city walk，下一秒掏出筆記本往台階上一放、就地辦公；候機室裏，總有那麼幾個人直到登機的前一秒還在筆記本上敲字疾書。

這是信息爆炸、連接無處不在的現代社會，在給予人類生活方便之餘，随手附贈的無奈。

合同籤訂前關鍵信息修改、稿件發布前的查漏補缺，種種突發狀況，都讓移動辦公處理文檔成為當下職場人的剛需。

手機螢幕越做越大，給人們在移動中閲讀更長的文檔提供了方便，但 " 處理 " 的步驟仍在困住職場人的手腳，随身攜帶的筆記本仍然是肩頭沉重的負擔。

大模型的到來給解放職場人的肩膀帶來了可能，也給產學界攻克 " 難啃的硬骨頭 " ——文檔 AI，帶來了突破口。

1992 年，Adobe 聯合創始人查爾斯 · 希莫尼發明了 PDF，連同十年前微軟的查爾斯 · 希莫尼發明的 Word，聯手開啓了數字化辦公的時代。

堆積如山的紙質文檔工作被濃縮在一方螢幕之中，一度将人們處理文檔的效率推向了新的層級。但兩個查爾斯都不會想到，幾十年後的現在，這些數字文檔會反過來拖累職場人的工作效率。

工程師敲代碼前需要閲讀的技術文檔動辄幾百頁，分析師寫行業報告需要從幾十、上百家公司财報中抽絲剝繭、獲取趨勢共性，物理世界的紙質檔案化身為 14 寸螢幕堆不下的數字文檔，同樣可以淹沒無數職場人。

人工智能發展幾十年，產學界很早就試圖用 AI 技術輔助人們處理文檔工作。從最早的規則啓發到神經網絡引入權重和數據訓練，基本的思路都是" 人為歸納規則 -> 轉換為機器語言（函數和代碼）-> 教授計算機規則 "。

然而，随着人們需要在電腦上處理的工作範圍越來越廣，文檔的復雜化發展沒有盡頭，有限的硬體算力和仍待完善的算法，都使得大部分文檔智能不那麼智能。

例如一旦文章過長或是包含的圖文要素過多，文檔智能給出的摘要常常不夠準确，甚至和文檔内容風馬牛不相及；

或是用户希望針對某一問題在文檔内容中找到相應的解答，文檔智能雖然會給出答案，卻不能溯源定位到原文，使得用户無法進一步确定答案的準确性。

同時，随着數字化深入到各行各業，文檔類型越發繁雜，每一類文檔對應一種處理規則，一種規則再對應一套算法的建立和後續的調試，整個流程逐漸變成了難以負擔，并且不具備經濟效益的繁重工作。

自動駕駛的難度眾所周知，而文檔AI面臨的挑戰并不比自動駕駛少。

一是數據。根據 IDC 口徑，2018 年 -2025 年，全球數據量将從 33ZB 到增長到 175ZB，其中 80% 是非結構化數據 [ 1 ] ，包括影像、音頻、傳感器數據等，共同特點是沒有統一格式、缺乏定義，難以表征；

二是理解能力。語言中的復雜語義、文檔的結構化都需要更強的邏輯演繹能力來理解和解讀，比如從 " 任務很困難，但小明堅持完成了 "，推導出 " 小明持之以恒 "，再比如一級标題和二級标題之間的遞進、表格表頭與數據的一一對應等。

三是專業性。尤其是在專業性極強的垂直行業，例如專業的論文，财經報告，律師卷宗等等，解讀這類文檔需要專業知識的長期積累。

直到大模型的出現，無需人工标注的數據和自監督學習機制，賦予了計算機自主進化的能力。

作為產學界最難啃的骨頭之一，文檔 AI 因此得到了突破的機會，HUAWEI Mate X6 的系統級 AI 助手小藝率先作出了示範。

今年 10 月 " 原生鴻蒙 "HarmonyOS NEXT 正式登場，11 月華為 Mate 品牌盛典，軟體層煥然一新，再次進化的智能體小藝聚焦了視線。

HUAWEI Mate X6 的大屏和輕便為移動辦公而生，HarmonyOS NEXT 将 AI 與作業系統深度融合，賦予了小藝處理復雜文檔時的突破性表現。

學術論文是典型的復雜文檔，其中包含大量抽象概念，混合艱深晦澀的文字表述，加上龐雜的數據圖表，依靠肉眼閲讀、人腦理解都費時費力。

但論文寫作逃不開閲讀、引用大量前人論文，尤其是文獻綜述環節，是學術圈知名 " 老大難 "。

用 HUAWEI Mate X6 的檔案管理器打開一篇學術論文，點擊右上角小藝星環呼喚出小藝，先生成一張思維導圖，快速掌握文章的邏輯脈絡和核心觀點。

用户對生疏概念進行提問，小藝會給與解答，利用小藝連續問答精準溯源的能力，通過将相關文字高亮，用户可以直接定位到原文做進一步理解，或是根據解答繼續追問。這個舉動就像人類寫論文标注數據來源和出處的習慣，為的就是追求嚴謹和準确，打消閲讀者對生成内容準确性的顧慮。同時，借助高亮溯源的特性，閲讀者也能快速找到想詳細了解的段落，進一步提升閲讀效率。

閲讀過程中，遇到陌生的概念，不用到搜索引擎上搜索，直接問小藝，從 " 深度學習和神經網絡的關系 " 到 " 多模态 LLM 和一般模型的區别 "，都能迅速給與解答。

得益于多模态内容感知能力，哪怕是論文包含復雜的圖表和大段抽象的文字表述，也可以讓小藝将其轉換為精美易讀的圖文摘要，繪聲繪色、通俗易懂。比如讓小藝進行論文解讀，用小藝根據文檔生成好看易讀的圖文編排呈現，能更清晰地給出抽象概念的區别，便于理解。不得不説，在需要處理非結構化、多樣化表格或圖文混排等復雜文檔情況下，華為的版面理解模型在内容解析能力上的提升，讓小藝具有了更大的優勢。

表格數據也是學術論文中常常出現的表達形式，但其在呈現趨勢、差異等方面存在不夠直觀的問題。

依托于鴻蒙系統打造的系統級文檔助手，也讓小藝有了智能感知用户意圖的能力，在遇到類似 "LLM 歷年參數規模 " 的表格數據時，就可以復制其中的大部分文字，小藝完整識别後提取數據，生成 "LLM 參數規模散點圖 / 直線圖 "，展現趨勢，一句話即可根據文檔内容生成圖表，就省得我們自己倒進數據表再手動拉數據畫圖了。而這就是系統與 AI 深度綁定的結果。

小藝之所以能正确識别文檔，并給出準确的摘要，這也要歸功于華為的版面理解模型，正因為有了這項能力的賦能，小藝才能做到準确的高亮溯源、一句話生成圖表等動作，事實上它還可以理解文檔的頁碼，即便是将文檔的某一頁删掉或保留這種操作，都能動動嘴巴讓小藝代勞。