今天小编分享的互联网经验:文档智能,“AI改变生活”的新注解,欢迎阅读。
当代职场人," 随地移动办公 " 是一种常态。
前一秒还在 city walk,下一秒掏出笔记本往台阶上一放、就地办公;候机室里,总有那么几个人直到登机的前一秒还在笔记本上敲字疾书。
这是信息爆炸、连接无处不在的现代社会,在给予人类生活方便之余,随手附赠的无奈。
合同签订前关键信息修改、稿件发布前的查漏补缺,种种突发状况,都让移动办公处理文档成为当下职场人的刚需。
手机螢幕越做越大,给人们在移动中阅读更长的文档提供了方便,但 " 处理 " 的步骤仍在困住职场人的手脚,随身携带的笔记本仍然是肩头沉重的负担。
大模型的到来给解放职场人的肩膀带来了可能,也给产学界攻克 " 难啃的硬骨头 " ——文档 AI,带来了突破口。
1992 年,Adobe 联合创始人查尔斯 · 希莫尼发明了 PDF,连同十年前微软的查尔斯 · 希莫尼发明的 Word,联手开启了数字化办公的时代。
堆积如山的纸质文档工作被浓缩在一方螢幕之中,一度将人们处理文档的效率推向了新的层级。但两个查尔斯都不会想到,几十年后的现在,这些数字文档会反过来拖累职场人的工作效率。
工程师敲代码前需要阅读的技术文档动辄几百页,分析师写行业报告需要从几十、上百家公司财报中抽丝剥茧、获取趋势共性,物理世界的纸质檔案化身为 14 寸螢幕堆不下的数字文档,同样可以淹没无数职场人。
人工智能发展几十年,产学界很早就试图用 AI 技术辅助人们处理文档工作。从最早的规则启发到神经网络引入权重和数据训练,基本的思路都是" 人为归纳规则 -> 转换为机器语言(函数和代码)-> 教授计算机规则 "。
然而,随着人们需要在电腦上处理的工作范围越来越广,文档的复杂化发展没有尽头,有限的硬體算力和仍待完善的算法,都使得大部分文档智能不那么智能。
例如一旦文章过长或是包含的图文要素过多,文档智能给出的摘要常常不够准确,甚至和文档内容风马牛不相及;
或是用户希望针对某一问题在文档内容中找到相应的解答,文档智能虽然会给出答案,却不能溯源定位到原文,使得用户无法进一步确定答案的准确性。
同时,随着数字化深入到各行各业,文档类型越发繁杂,每一类文档对应一种处理规则,一种规则再对应一套算法的建立和后续的调试,整个流程逐渐变成了难以负担,并且不具备经济效益的繁重工作。
自动驾驶的难度众所周知,而文档AI面临的挑战并不比自动驾驶少。
一是数据。根据 IDC 口径,2018 年 -2025 年,全球数据量将从 33ZB 到增长到 175ZB,其中 80% 是非结构化数据 [ 1 ] ,包括影像、音频、传感器数据等,共同特点是没有统一格式、缺乏定义,难以表征;
二是理解能力。语言中的复杂语义、文档的结构化都需要更强的逻辑演绎能力来理解和解读,比如从 " 任务很困难,但小明坚持完成了 ",推导出 " 小明持之以恒 ",再比如一级标题和二级标题之间的递进、表格表头与数据的一一对应等。
三是专业性。尤其是在专业性极强的垂直行业,例如专业的论文,财经报告,律师卷宗等等,解读这类文档需要专业知识的长期积累。
直到大模型的出现,无需人工标注的数据和自监督学习机制,赋予了计算机自主进化的能力。
作为产学界最难啃的骨头之一,文档 AI 因此得到了突破的机会,HUAWEI Mate X6 的系统级 AI 助手小艺率先作出了示范。
今年 10 月 " 原生鸿蒙 "HarmonyOS NEXT 正式登场,11 月华为 Mate 品牌盛典,軟體层焕然一新,再次进化的智能体小艺聚焦了视线。
HUAWEI Mate X6 的大屏和轻便为移动办公而生,HarmonyOS NEXT 将 AI 与作業系統深度融合,赋予了小艺处理复杂文档时的突破性表现。
学术论文是典型的复杂文档,其中包含大量抽象概念,混合艰深晦涩的文字表述,加上庞杂的数据图表,依靠肉眼阅读、人腦理解都费时费力。
但论文写作逃不开阅读、引用大量前人论文,尤其是文献综述环节,是学术圈知名 " 老大难 "。
用 HUAWEI Mate X6 的檔案管理器打开一篇学术论文,点击右上角小艺星环呼唤出小艺,先生成一张思维导图,快速掌握文章的逻辑脉络和核心观点。
用户对生疏概念进行提问,小艺会给与解答,利用小艺连续问答精准溯源的能力,通过将相关文字高亮,用户可以直接定位到原文做进一步理解,或是根据解答继续追问。这个举动就像人类写论文标注数据来源和出处的习惯,为的就是追求严谨和准确,打消阅读者对生成内容准确性的顾虑。同时,借助高亮溯源的特性,阅读者也能快速找到想详细了解的段落,进一步提升阅读效率。
阅读过程中,遇到陌生的概念,不用到搜索引擎上搜索,直接问小艺,从 " 深度学习和神经网络的关系 " 到 " 多模态 LLM 和一般模型的区别 ",都能迅速给与解答。
得益于多模态内容感知能力,哪怕是论文包含复杂的图表和大段抽象的文字表述,也可以让小艺将其转换为精美易读的图文摘要,绘声绘色、通俗易懂。比如让小艺进行论文解读,用小艺根据文档生成好看易读的图文编排呈现,能更清晰地给出抽象概念的区别,便于理解。不得不说,在需要处理非结构化、多样化表格或图文混排等复杂文档情况下,华为的版面理解模型在内容解析能力上的提升,让小艺具有了更大的优势。
表格数据也是学术论文中常常出现的表达形式,但其在呈现趋势、差异等方面存在不够直观的问题。
依托于鸿蒙系统打造的系统级文档助手,也让小艺有了智能感知用户意图的能力,在遇到类似 "LLM 历年参数规模 " 的表格数据时,就可以复制其中的大部分文字,小艺完整识别后提取数据,生成 "LLM 参数规模散点图 / 直线图 ",展现趋势,一句话即可根据文档内容生成图表,就省得我们自己倒进数据表再手动拉数据画图了。而这就是系统与 AI 深度绑定的结果。
小艺之所以能正确识别文档,并给出准确的摘要,这也要归功于华为的版面理解模型,正因为有了这项能力的赋能,小艺才能做到准确的高亮溯源、一句话生成图表等动作,事实上它还可以理解文档的页码,即便是将文档的某一页删掉或保留这种操作,都能动动嘴巴让小艺代劳。
国内学者还经常遭遇全英文文献的困扰,贯穿全文的英文专有名词,即使翻译 APP 不离手,也免不了阅读速度大大降低。小艺不仅能提供全文翻译,还可以生成中文摘要、提供中文问答来帮助用户更快地领会文献核心。
几十页的学术论文,靠小艺可以极大地缩短阅读时间,将自己从繁杂的信息中解放出来,更高效地获取对自己的研究真正有价值的论据和数据。
财报同样充斥着大量的文字、数据和图表内容。分析师写行业报告,需要梳理几十上百份财报,抽取出关键数据做线性回归分析。
有了小艺,想要对财报中的表格数据进一步分析,同样可以借助小艺的多模内容精准感知解读的能力,获得分析绘图,还可以直接一句话生成自定义表格,例如 " 把第一季度、第二季度收入画成饼状图 " 等要求。
小艺能够轻松扮演 " 研究助手 "、" 助理分析师 ",最关键的就是前面所提到的,其依托的是领先业内的版面理解模型。
版面分析模型是复杂文档处理的基础,它将文档按照区網域划分,定位标题、文字、图片、表格等关键信息,再进行解读,是执行表格提取等后续操作的前提,其精度决定了这些操作的准确性。
小艺背后的版面理解模型通过增加长序列、RAG、Grounding 等技术办法,提升了解析文档的能力,并实现了端对端的优化。
其中,长序列是指文档中的上下文,也就是 " 前景提要 " 和 " 背景知识 ",模型能够利用的上下文越长,对内容的理解能力越强,直接影响摘要生成、翻译等功能。
RAG 即检索增强生成技术,当用户向小艺提出一个问题,RAG 技术负责从各类数据源检索相关联的信息提供给模型,综合这些信息回答用户的问题。
Grounding 则用来引用具体的概念、事件,通过建立与现实世界的联系,确保小艺生成内容的可靠性,更准确地理解、描述影像、视频等多媒体数据。
强大的模型赋予了小艺领先业内的文档处理能力,是其综合能力的其中一隅。
职场上要求的不只是工作能力,主观能动性、有求必应也被视作责任心的体现。
类似地,用户对于文档智能助手的期待也不只是足够强的处理文档 " 硬实力 ",更容易开启、随叫随到等等 " 软实力 ",也对用户体验至关重要。
而小艺的深厚 " 内功 " 就在于此。
与 HarmonyOS NEXT 的深度融合,使得小艺晋升为系统级 AI 助手,调配算力、线程、内存等系统资源更加灵活。
相当于跑堂传话的小厮升职成为执掌人事调度、采买等事务的大管家,真正拥有了接管用户生活、工作琐事的能力。
小艺的文档智能也因此实现了 " 随叫随到 ",与用户的互動方式更加自然,将调用方式浓缩为了几个简单而日常的动作: