今天小编分享的互联网经验:大模型之争,讯飞星火准备好了,欢迎阅读。
距离科大讯飞董事长刘庆峰所说,10 月 24 日 " 超过 "ChatGPT 的时间点,还有不到 70 天。
Chatgpt 从今年年初开始带起一阵持续至今的国产大模型狂热。热钱流向这里,推着年轻或已远离商业竞争多年的技术领袖出山自立门户,也推着行驶多年的火车顶着巨大的势能变轨。究其原因,所有人都认定这是一场新革命的开始。
科大讯飞是这些竞争者中特殊的一个。
这是一家成立 24 年,超过 1 万名员工的老牌公司。但它在技术上又离这场关于人工智能的革命很近。
科大讯飞是国内与 Transformer 框架纠缠最深的公司之一,语音识别、图文识别、机器翻译——这些科大讯飞最关心的领網域,在多年前已经无可置疑地基于 Transformer 框架而建立。
巨大的数据积累则是这些技术沉淀的另一面。科大讯飞拥有数十 TB 的行业语料,每天有超过 10 亿人次用户互動的活跃应用。
这让刘庆峰显得非常自信。在 5 月 6 日科大讯飞正式发布讯飞星火认知大模型的发布会现场,刘庆峰提到了今年讯飞星火认知大模型技术更新的三个关键里程碑节点:
6 月 9 日,讯飞星火将突破开放式问答、多轮对话能力明显提升、数学能力再更新。
8 月 15 日,代码能力更新以及多模态互動能力提升。
10 月 24 日,将实现通用模型对标 ChatGPT,中文超越 ChatGPT 的当前版本,英文能做到相当水平,并在教育、医疗等领網域做到业界领先。
现在这个目标走到中段。
讯飞星火认知大模型 V2.0 来了
在大模型能力的诸多维度中,代码能力是支撑认知大模型智慧的关键维度。根据 OpenAI 构建的代码能力公开测试集 HumanEval,星火认知大模型 V1.5 Python 语言的效果只有 41 分,而这也是星火认知大模型 V2.0 中最亮眼的能力提升。
比如最基础性的,星火认知大模型 2.0 可以实现以自然语言输入来生成日常常见的 " 长度不少于 8 位,必须包含大小写、数字及特殊符号 " 的密码识别函数。
图源:科大讯飞
更复杂一点,星火认知大模型 V2.0 可以实现用 Python 画红色的心形线或者画出马鞍面方程三维立体图并設定渐变色,或者直接用代码生成贪吃蛇小游戏。
图源:科大讯飞
但对于大部分人来说更直观的,或许是一个直接从视频转成 gif 的演示。
" 使用 python 处理视频星火 .m4v,提取其中第 2 到 10 秒,把画面缩小一半,加速 5 倍,保存成 gif 图片。"
科大讯飞研究院院长刘聪对星火认知大模型 2.0 输入了这样一段只要有编程基础知识就能理解的句子,然后很快在檔案夹里得到了所要求的那个 gif 檔案。这个实用功能可以非常快速的把任何一段视频变成表情包。
在测试集 HumanEval 中,星火认知大模型 2.0 在 Python 语言的效果评分达到了 61 分。在代码生成、代码补齐、代码纠错、代码解释、单元测试生成五个维度的代码能力上相比星火认知大模型 1.5 有了单项最高 28% 的能力增长,并且在代码生成和代码补齐两项能力上超过 ChatGPT。
而在同一测试集 Java、JS、C++ 语言上的代码表现,星火认知大模型 V2.0 也都超过了 40 分,代码水平逐渐接近 ChatGPT。根据刘庆峰所说,讯飞星火代码各维度的能力将在今年 10 月 24 日超越 ChatGPT,明年上半年对标 GPT-4。
代码能力度量一个大模型在思维能力上的深度。但对于星火认知大模型来说,它的迅速迭代并不只是为了与更先进的大模型对标,也是为了 " 超腦 2030 计划 " 奠定基础。
科大讯飞在 2022 年云年会上启动了这个让机器人走进每个家庭的 " 讯飞超腦 2030 计划 "。刘庆峰将其比作科大讯飞的一场 " 登月计划 ",他认为如果没有陪伴机器人进入每一个家庭,人类社会的美好未来是不可能实现的。
图源:科大讯飞
这个战略性目标的核心技术就是多模态能力。这也是星火认知大模型 V2.0 在代码能力之外,另一个核心的能力提升方向。
星火认知大模型 V2.0 现在具有生成人物、风景等各类照片,生成班级手抄报,或者根据古诗词 " 作画 " 的多模态能力。并且在图片输入的理解能力方面,星火认知大模型 V2.0 可以在一幅景致复杂的照片中辨认出一辆 SUV,或是辨别出一幅图片中的狗是一只柯基。
值得注意的是,刘聪在发布会现场以一张复杂的家庭场景照片考验星火认知大模型 V2.0,后者不只是可以 " 读出 " 整张照片的内容,也准确识别出这个杂乱场景中一盆绿色盆栽在图片中所描绘空间中的具体位置。这种感知和认知能力对未来像家庭陪伴机器人这样的新物种出现有非常重要的意义。
图源:科大讯飞
" 多模态能力是赋能行业的刚需,也是实现通用人工智能的必经之路 ",刘庆峰强调," 多模态能力也是科大讯飞既定的人工智能技术长期战略。"
从代码能力走向 iFlyCode1.0
新华社研究院近日发布的一份国产大模型报告中,星火认知大模型在一个对标接受过高等教育的人类水平,按基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行权重设计的测试集中,在智商评估、工作效率两个维度测试项分数最高,总体评分压过文心一言等国产主流大模型,位列测评榜第一。
各种不同维度的大模型横评测试中,参与者越来越多。今年上海人工智能大会(WAIC)上展出的大模型就超过了 30 个。在那之前,5 月中关村论坛上发布的《中国人工智能大模型地图研究报告》显示,参数在 10 亿规模以上的国产大模型在当时已发布了 79 个,这一数字在 7 月破百。所谓的 " 百模大战 " 至少在竞争者数量上已经名副其实。
星火认知大模型 V2.0 发布的同一天(8 月 15 日),《生成式人工智能服务管理暂行办法》开始实行,也意味着这场 " 百模大战 " 将从上游的大模型基础能力竞争,转入一种更激烈的产品层面竞争。
星火认知大模型 V2.0 的能力也以更多应用的形式,更具体的呈现出来。
对于开发者来说,大模型的代码能力最终需要放在开发环境里才有意义。基于星火认知大模型 V2.0 的代码能力,讯飞星火发布了一款智能编程助手的应用级产品—— iFlyCode1.0。
图源:科大讯飞
刘聪用曾在科大讯飞在去年全球 1024 开发者节期间展示过的,用两个手指捏合写字的 " 凌空手写 " 功能来展示了 iFlyCode1.0 的强大能力。只需要以自然语言的形式输入 Prompt(提示词),iFlyCode1.0 就可以提供具体分步实现的步骤,同时提供需要导入的 package(軟體包)。整个过程不需要手写一行代码,本来至少需要半天的开发过程,现在通过 iFlyCode1.0 只需要几分钟就可以完成。
刘庆峰表示,在发布会之前,科大讯飞研发效能平台已经用 2000 多名内部开发人员作为样本,对 iFlyCode1.0 的开发效率做了周期一个月左右的内测,结果显示在一些典型场景中,iFlyCode1.0 代码采纳率达 30%,编码效率提升 30%,综合效率提升 15%。
星火认知大模型 2.0 的多模态能力则促成了科大讯飞在 AIG 上的应用更新——讯飞智作 2.0。
讯飞智作目前已经是一个拥有超过 375 万总用户量,生产出超过 2100 万个视频作品的 AIGC 内容生产平台。在背后的大模型能力更新后,讯飞智作 2.0 能够更精确的理解用户的创作意图,满足多元的视频制作需求。
图源:科大讯飞
刘聪发布会现场用讯飞智作 2.0 做了一个介绍黄山毛峰茶叶的视频,在输入对于视频的内容要求后,讯飞智作 2.0 会自己寻找关于茶叶的产地、包装、色泽等特点的准确信息。整个过程非常快,并且极大降低了视频创作的技术门槛。
平行的两条进化路线
2010 年科大讯飞推出讯飞云平台(后为讯飞开放平台)与讯飞输入法后,曾经提出了一个 " 涟漪效应 " 的观点。
" 涟漪效应 " 是说人工智能相关技术被人们所使用的这个过程是一点点扩散的。当使用者越来越多,数据和反馈也会变多,系统误差在大量数据的修正中变得越来越小,就像水纹向外的震荡一样。
" 涟漪效应 " 这个在十多年前看来非常直觉性的观念,在星火认知智能大模型这件事上有一个更明确的描述。
"1+N"。
科大讯飞将教育、办公、医疗等场景看作 "N",星火认知智能大模型则是放在 "N" 之前的 "1"。OpenAI 去年 11 月 30 日发布 ChatGPT 后仅仅 15 天(12 月 15 日),科大讯飞就启动了 "1+N" 认知智能大模型的专项突破瓶頸。
也就是说,星火认知大模型从最初开始就有两条并行的进化过程。
一条是抽象层面的能力进化。
星火认知大模型的 V1.0 版本更像一个不错的文科生。基于科大讯飞本身在 NLP 领網域的技术积累,星火认知大模型 V1.0 已经能够较好地完成中英文论文、品宣文案等丰富内容形式的撰写。但除了文本生成和语言理解,星火认知大模型 V1.0 在知识问答、逻辑推理、数学能力、代码能力、多模态方面的素质仍亟待进化。
星火认知大模型 V1.5 开始逐渐 " 文理双修 " ——它可以做高考数学试卷了。相比 V1.0 版本,星火认知大模型 V1.5 在文本生成、语言理解、逻辑数学能力和代码能力方面有最高 10% 的能力提升,在知识问答方面的提升则达到 24%。逻辑能力是星火认知大模型 V1.5 相比之前提升最大的能力维度,它已经迭代出了不错的多轮对话能力。
直到星火认知大模型 V2.0,其在多模态以及代码能力上的迭代并不是无迹可寻。多模态是 AI 理解世界的长期方向,而生成式 AI 的需求普及意味着写代码这件事本身势必会一步步降低门槛。
除了模型能力的迭代,星火认知大模型的另一条进化路线在于产业。
教育产业是科大讯飞软硬體体系的核心场景之一,讯飞的智慧课堂(畅言智慧课堂)已经在全国 1200 多万师生中广泛使用。星火认知大模型 2.0 的能力提升也快速反应到了这里。
图源:科大讯飞
青少年教育开始实现以素养培养为核心的教育三新(新课标、新教材、新高考)改革,这对教师提出了在教学設定上的变化和挑战。为此科大讯飞推出了星火教师助手,后者在星火认知大模型 V2.0 的理解能力基础上,可以根据学科内容进度完成单元教学设计、课堂活动设计,甚至一键生成课件。
刘庆峰表示,在上海、广东、安徽等一线教师试点体验后,结果显示星火教师助手可以提升 50% 以上的单元教学规划和课件制作效率,教学活动丰富度也提升了 20% 以上。
作为口语陪练老师的星火语伴此次更新到了 2.0 版本,主题对话数量从 73 个提升到了 393 个,多模态能力下的虚拟人沉浸式陪练机制进一步加强。并且相比之前,星火语伴 2.0 新增了 CET、雅思、托福的智能评价反馈以及新的情景交流功能,后者支持图片、文档自定义情景。
而星火认知大模型 V2.0 强势的代码能力则会成为学校的教育数字基座。对教育场景理解最深,但并不具备代码编译能力的教职人员可以把教育数字基座作为自己的开发助手,来搭建最适合学生的教育应用。根据上海、湖北等试点学校的应用成效,教育应用的开发周期和投资成本都大幅度降低。
图源:科大讯飞
刘庆峰也表示,代码能力不仅应用于讯飞教育数字基座,也广泛应用于医院、大学、企业、政府等不同的机构,通过 iFlyCode 都可以实现快速搭建和低成本迅速呈现。
" 这就是我们说的通用人工智能为什么会深刻改变今天以人力和时长为主要逻辑的商业模式,实现整个产业的彻底的颠覆和更新 "。
而随着星火认知大模型在教育、医疗、工业、办公等领網域落地应用,一个更广袤的开发者生态正在形成。从 6 月 9 日星火认知大模型 V1.5 发布至今,新增了 7862 款星火助手,有 4109 多个助手开发者团队加入进来。而在科大讯飞的人工智能开放平台角度,目前已经有 500 多项能力开放给各领網域的创业者和合作伙伴去调用以构建各种新的应用。
" 在通用人工智能上,一定还是要坚持我们价值创造的根本,那就是要有能看得见摸得着的场景,能规模化推广的应用和产品,同时能够用统计数据来证明我们的应用成效。" 刘庆峰在不久前的一场论坛上表示。
这条关于产业的进化道路可能是科大讯飞更加看重的。而这么多场景的可能性,被更具像化的集成到一款新发布的 " 星火一体机 " 上。
一个更具体的方案
《生成式人工智能服务管理暂行办法》的实行意味着大模型竞争从基础能力转向产业,而对于人工智能安全可控的诉求则变成了进入这场竞争的前提。
安全可控、场景驱动和专属定制则是科大讯飞认为大模型在未来进入产业时需要具备的三个关键要素,而星火一体机则是为此准备的一个国产软硬體一体化私有专属大模型解决方案。
刘庆峰介绍,星火一体机能够实现模型训练和推理的一体化部署,并且针对星火模型的训练算法和推理应用进行了硬體定制,大大降低使用成本。其可以应用于问答、对话、知识图谱、推荐等多个领網域。提供从底层算力、AI 框架、训练算法到应用效果的全栈 AI 能力,针对企业个性化的需求来定制企业专属大模型。
图源:科大讯飞
在场景宽度上,星火一体机基于科大讯飞在多行业积累的场景落地经验,内置了办公、代码、运维、客服、营销、采购等 10 多个场景包,支持对话开发、任务编排、插件执行、知识接入、提示工程等 5 种定制优化模式,并将持续拓展更多专业场景和模式优化。
在核心的安全可控方面,星火认知大模型针对污语料和幻觉问题形成立体化的 " 内容安全机制 ",保障大模型进入行业之后的内容安全;华为将会作为科大讯飞的合作伙伴保障算力安全。星火一体机基于昇腾 AI 硬體、昇思 AI 开源框架,提供业界领先的大模型训练、推理能力,为大模型全流程创新提供坚实的自主创新算力底座。
" 中国人工智能的发展,尤其是拥抱这次通用人工智能,绝不仅仅是单个企业、单个科研院所的工作和使命,而是整个社会的机会。" 刘庆峰表示," 而在这个过程中,生态的发展决定了产业的繁荣,也是我们一直在孜孜不倦追求的事情。"