今天小编分享的教育经验:果麦文化:AI编校可替代有标准化答案的工作,预计两年内做到错误率十万分之一,欢迎阅读。
多知网 6 月 1 日消息,最近果麦文化进行了投资者活动,提到编校是行业痛点,而 AI 编校能够提高效率、扩大产能,目前已经做出了 AI 编校 Demo。
果麦文化提到,出版行业成本由高至低分别为纸张和印刷、作者版税、编校。编校是出版行业第三大成本来源,公司每年耗费千万元用于编校,依旧无法解决编校难的问题。AI 编校能够提高效率、扩大产能。
果麦文化有自己的研发部门,过去基于规则做编校相关的产品,但效果不理想。2022 年,公司利用神经网络学习和通用大模型进行尝试之后,发现其能够解决过去基于规则不能解决的问题。去年做的小 demo 效果比较好,有信心基于通用大模型 / 自然语言处理去解决行业痛点。
果麦文化进一步表示,目前国家标准是错误率万分之一,AI 编校达到千分之一就可以达成一个普通人的编校工作,预计在未来两年可以做到十万分之一,能 100% 解决问题。
在果麦文化看来,ChatGPT4 立足于海量数据的基础上,对于原始已存在的错误,可能无法正确识别。而 AI 编校不会被超大模型覆盖掉,出版行业不是夕阳产业,2024 年至 2030 年,预测会呈现稳步增长趋势。AI 编校能够提高效率,扩大产能,以往大部分编辑都在做编校工作,而不是创造性的工作。
果麦文化还透露,已经积累了 7900 万左右的互联网用户,2020 年下半年开始进行直播带货卖书,抖音十大读书账号果麦占据半壁江山 ( 易中天、戴建业、小嘉啊、好书博物馆等 ) 。
2019-2022 年果麦 To C 收入占总收入比重分别约 2%、10%、14% 和 18%,2023 年 Q1 达到了 24%。To C 可以直接跟用户做交易,没有应收账款,显著提升的 To C 收入占比改变了果麦的销售模式,毛利率从 2020 年 46% 逐年上升,2023 年 Q1 毛利率超过 50%。从 2014 年到 2019 年,毛利率稳步上升,已经初步完成互联网改造。
关于 AI 编校的问答:
Q1:在校对错误中,AI 编校能解决好哪些类型 ? 哪些类型解决不够好以及怎么提升 ?
1 ) 校对错误一般四种:错别字,语义错误,事实性错误,敏感词错误。
2 ) 对于事实性错误和敏感词错误,AI 大模型做得比较好。
3 ) 语义错误:大模型基于全网去抓中文语料,往往被普通人的语言水平所影响,这个是未来重点要攻克的方向。
4 ) 未来 AI 编校主要集中在语义错误上,在这类错误识别上去提高精度。
Q2:校对事实类错误和错别字会同步进行吗 ?
中文具有模糊性的特征,有些错别字需要结合具体语境去判断。结合全文理解文字、识别错别字、校对事实错误这三件事在难度上一致,而目前基于规则的模型都做不到,因此需要大模型或神经网络进行学习。
Q3:为什么会投资 AI 编校 ?
1 ) 编校是行业痛点,公司为此付出了很多人力成本。
2 ) 公司前期尝试过 AI 编校,并且果麦也有自己的研发部门,过去基于规则做了编校相关的产品,但效果不理想 ;2022 年,利用通用大模型进行初次尝试后,有所突破,所以决定投资这个赛道。
Q4:AI 编校能做哪些相关工作 ?
公司内部主要是使用 " 十维数据分析系统 " 在辅助工作,目前 AI 编校做的主要工作是:替代有标准化答案的工作,譬如,在编辑日常工作过里的文字标点符号错误、事实错误等,都可以通过 AI 编校模型去替代。