今天小编分享的科学经验:实测讯飞星火V3.5:全语音互動比肩GPT-4!超逼真唠嗑让你根本停不下来,欢迎阅读。
"2024 年上半年对标 GPT-4",这是 23 年科大讯飞全球 1024 开发者节现场给出的承诺。
今天,2024 刚开年,讯飞星火就迎来重大更新:
讯飞星火 V3.5整体接近 GPT-4 Turbo;
数学、语言理解、语音互動能力超过 GPT-4 Turbo;
代码达到 GPT-4 Turbo 96%;
多模态达到 GPT-4V 91%。
尤其在语音互動功能上,超逼真的真人语音生成,直接让线上网友惊叹三连:
还有更多实用功能,比如现场几十秒的时间生成 22 页 PPT!这速度,很快啊……
而围绕着这个大模型底座,科大讯飞还有一揽子产品和场景应用输出。
国产首个语音大模型
星火开源大模型 " 星火开源 -13B"
讯飞翻译机更新
面向教育行业的智慧黑板
……
从基础模型到应用场景,下面一起来看。
讯飞星火 V3.5 底座能力更新
讯飞星火 V3.5 除了七大能力全面提升,整体能力接近 GPT-4,还特别在语言理解、数学等能力上实现超越。
尤其对中文的理解更占优势,具体数据对比如下:
语言理解、数学能力超过 GPT-4 Turbo;
代码打到 GPT-4 Turbo 96%;
多模态理解达到 GPT-4V 91%
……
如果看数据图表还不够直观,我们也提前实测了一番。
就拿此次网友最为称道,也是本次更新最大的亮点——全语音互動,不是语音消息那样一条一条的,而是像打电话一样实时互動,下面先来看一段视频演示:
星火这一波应对得怎么样,算不算得上高情商?
要注意视频没有做加速处理,讯飞星火 V3.5 的语音响应就是这么快,与 ChatGPT 的语音互動相比,省去了大量 " 等待 AI 思考 " 这个环节,整个对话过程更流畅。
" 聆飞逸 "、" 聆小玥 " 分别对应男女声两种音色,可自由切换。在音色自然,还像人一样时不时有停顿、" 嗯…… " 等语气词。
在有感情,拟人度等方面,对比 ChatGPT 的 "Ember"、"Juniper" 音色也不遑多让。
在互動模式上还设计了 " 一键打断 " 功能,避免 AI 生成在一轮对话中内容过长。
打断后,可继续提问下一个问题,也可以直接 " 挂断 " 语音,切回到文字模式,看到刚刚整个对话过程的文字版。
除此之外,在其他能力表现上,我们先用一个经典挖坑题来考验。
结果讯飞星火 V3.5 不但回答了最后的问题,还没有被前面无关的信息绕进去,每一个不合理之处都被揪出来了。
做到这一点不仅需要推理问题中的文字逻辑,还要结合大模型在训练阶段学到的关于现实世界的知识。
对比 GPT-4,除了格式不同,推理能力、知识水平可以算是在一个 level 了。
另外也可以推测,由于要兼顾语音表现,讯飞星火的回答总是一串连贯的句子,而 GPT-4 更注重视觉排版。
时效性方面,提问最新网络流行梗,星火也是能跟得上潮流的。
相比之下,GPT-4 现在虽然默认也有联网功能,但不经特意提醒不会意识到回答这个问题需要联网搜索,而是开始了传统艺能 " 一本正经瞎编 "。
而在更实用场景功能更新,比如学习、办公等场景,也是讯飞星火一直以来的迭代重点。
比如在知识学习和内容创作方面。
发布会现场,只截取一段简单的新闻,就能提出问题,并且根据问题进行回答。
关键的是,里面回答的内容原文并没有。但它却能根据问题旁征博引、扩充内容。
在 PPT 创作上,在确定主题、提纲以及内容的过程中,可以随时补充内容、精准生成。
而在更多像工业、数智化的生产力场景中,对大模型的逻辑推理、空间理解、多模态等方面的能力都提出了更大的考验。
此次星火 V3.5 也得到了一定的增强。
比如在多模态和空间理解能力上,只给了一张图,也没有更多提示(只说分析这张图片)。结果它直接判断:这是一个室内平面布局图,并且进一步准确给出房间、家居位置。
除此之外,还可以帮忙设计装修图,并且根据自己的需求精细可控。
ps. 你能看出这两个有什么不同吗?(提示:看后面的风格画)。
总的来说,讯飞星火 V3.5 这次更新,在模型基础能力、实用性、互動模式上都有提升,也带领中国大模型行业进一步朝世界先进水平看齐。
不过在这幕后,还有一件更值得关注的进展。
这次讯飞星火 V3.5 能力更新,同时也是" 飞星一号 " 平台能力的首秀。
这是讯飞与华为共建的大模型算力平台,基于华为昇腾生态,实现了纯国产化算力。
在 " 飞星一号 " 平台首次对外宣布之时,刘庆峰曾表示 " 中国现有的大模型跟 GPT4 比还有差距,所以我们必须正视今天和 GPT4 的差距,找到差距所在。"
如今在 " 飞星一号 " 平台正式投入使用后,这个差距正在逐渐缩短。
不仅如此,一个完全国产化、自主可控的算力底座,在保障网络信息安全基础上,还能更好地满足国内各行各业的需求,以及支持开发者、高校、企业更好自主研发。
凭借此算力底座,除了讯飞星火 V3.5,这次一同出炉的还有国产首个语音大模型。
首个语音大模型发布
借助基础大模型以及国产算力平台,此次科大讯飞在技术和生态层面,还有一揽子成果输出。
技术方面,首个语音大模型的发布。
在语音技术上深耕二十余年的科大讯飞,它认为大模型给语音技术发展,包括语音合成、识别、多语种等方面带来了全新的机会。
不同于常规的语音大模型,讯飞的语音大模型将更多语音表征解耦,融入到大模型预训练中,比如语种表征、内容表征、韵律表征、音色表征。
在多语种识别中,在首批 37 个主流语种效果超过 OpenAI Whisper 3。
并且在多语种语音生成、超拟人语音生成上,也有一定的提升。
目前语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面。
除此之外,还首次发布了星火开源大模型 " 星火开源 -13B"。据介绍,此次深度适配国产算力,并且也在昇思社区上发布,助力开发者、高校、企业自主研发。
而在应用生态层面,此次同样也干货满满。
作为拥有超过全球 590 万开发者生态的讯飞,继续发挥着自己的场景势能——以大模型之力,持续在千行百业中落地。
以最典型的教育场景为例。
具体在教育场景上,此次讯飞星火智慧黑板有了一定更新。
刘庆峰认为,作为改变人类未来生产生活方式的重大技术突破,优先应该为孩子赋能、为教育赋能。
老师一声上课,讯飞星火智慧黑板就开始工作。
不管是数学、化学,立体几何还是化学方程式,只需在黑板上画一下,就能识别成书面格式,并且支持编辑。
比如现场画个苯酚,结果它秒秒钟识别,并且推荐出视频科普课程。
还能使用虚拟人,辅助老师授课。
一节讲完,它还能自动存下来,课程实录、视频切片等内容都有,可以随时回顾重点。
除此之外,还有在保险、银行、能源、汽车、通信等方面的合作进展。
其中,值得一提的是,在农业领網域,科大讯飞同安徽省农业农村厅联合打造 " 耕云农业大模型 ",并被写入安徽省政府工作报告之中。
据介绍,在最新的安徽省政府工作报告中, " 讯飞星火 " 还被评价道:科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。
能得到这种自上而下的关注和协同合作,国内并不多见。
这与科大讯飞本身在大模型生态影响力不无关系。截至目前,讯飞星火积累了这样一份成绩单。
讯飞听见已经拥有 6500 万用户,讯飞星火纯用户 2400 万;
讯飞输入法有 1.4 亿活跃用户;
内容创作平台,讯飞智作(音视频创作),自 815 发布以来新增了 21 万会员用户,160 万音视频内容;而在图文创作上,1024 发布以来赋能企业用户生产百万内容。
半年来,大模型开发者生态积累了 35 万开发者数量,其中企业开发者数量为 22 万。
要知道获得这样成绩的讯飞星火,距离首次发布并不足一年。
一方面,再次印证了大模型作为基础技术底座,持续释放在千行百业的应用潜力,而且迭代和落地速度只会越来越快。
去年十月,国务院发展研究中心下属的国研经济研究院开展了一项大模型行业应用能力测评研究。测评报告中显示:
星火大模型 V3.0 在医学、法律、教育、零售、汽车工程、计算机和工业设计平均准确率达 72.3%,在所有测评行业中表现均优于 GPT3.5 版,并且与 GPT4.0 各有优劣。
而除了在行业场景中的生产势能外,此次国产语音大模型的发布同样值得关注。还记得 GPT 系列大模型刚出现时,关于各种技术「不存在了」的讨论此消彼长。
作为 AI 语音龙头,科大讯飞首次实践证明:借助大模型来推动自身语音技术积淀达到新的高度,继续引领语音技术发展。
大模型新阶段,该怎么走?
经历了 2023 年的百模大战,2024 整个行业来到一个新的阶段。
作为国内大模型的代表玩家,科大讯飞整场发布会看下来,能看到窥见到以下三点关键趋势:
基础技术层面,推理、多模态能力成为大模型技术更新的重点攻坚方向。
此次讯飞星火 V3.0 的更新方向,与前段时间奥特曼剧透 GPT-5 有不少相似之处。
此前在奥特曼对 GPT-5 的零星剧透来看,推理能力是重点提升方向,尤其在代表用户处理通用任务方面有重要进步。
很快就可以问 AI,我今天最重要的邮件是什么?
在产品功能上," 应用户强烈要求 ",奥特曼正在考虑给 ChatGPT 添加视频能力,以及给语音功能提供更好的语音质量。
企业层面,大模型只是基础底座,技术公司能够借大模型来带动自身技术更新和发展。
已经明显感知到的是,当下很多讨论的技术都有一个共性,就是它并非突然涌现,而是往往存在已久,终于来到了产业大规模应用的拐点。
因此对于技术公司来说,持续保持对新技术的感知和投入,其实就能快速部署应用,帮助自身技术布局和发展。
前段时间,Meta 小扎官宣 "All in 开源 AGI",但实则同此前元宇宙的布局并不冲突,他们将借助大模型,进一步推进雷朋 Meta 智能眼镜为代表 AI 新型计算设备的更新。
生态层面,大模型的开放性和可扩展性正在成为推动行业生态繁荣的关键因素。
讯飞星火正吸引着更多的开发者和合作伙伴,促进技术的快速迭代和创新。基于大模型构建出各种行业应用,形成一个多元化的应用生态。这种生态的构建,有助于形成良性的技术竞争环境,推动整个行业的技术进步和应用场景的拓展。
因此我们能看到,讯飞在教育、医疗等多个垂直领網域的深入应用,这些领網域的应用不仅能够解决实际问题,还能够反过来进一步为大模型提供丰富的数据支持,进一步优化模型性能,实现更新迭代的正向循环。
这也是讯飞一次次敢于在重要时间节点提前 " 立下 Flag",又能准时带着最新进展回来兑现承诺的底气所在。
这一次,刘庆峰再次立 Flag:今年上半年达到 GPT-4 现在水平。
而更长期的目标在于通用大模型持续对标、行业应用实现超越、自主可控生态繁荣。
2024 年才刚刚开始,对于这一年以讯飞星火为代表的 AI 技术又将给人们生活带来哪些变化,你怎么看?
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>