今天小编分享的科技经验:专访科大讯飞董事长刘庆峰:追着OpenAI打仗,欢迎阅读。
多模态能力中的理解能力,其实比生成能力更重要。
文|《中国企业家》记者 闫俊文
编辑|李薇
头图来源|受访者
谁是 AI 界的余承东,敢说敢干,贴着技术最领先的公司打仗?刘庆峰显然算一个。
20 多年前,刘庆峰和科大讯飞的对手是微软、百度等大公司,战场是智能语音;现在,刘庆峰的目光跨越两万公里的太平洋,他只有一个态度:贴着硅谷一家名为 OpenAI 的公司打仗。
"GPT-5 一出来,我们有可能跟它又有点差距了,但我们还在迎头赶上,我们知道怎么做。" 今年全国两会期间,全国人大代表、科大讯飞董事长刘庆峰接受《中国企业家》独家专访时说。
科大讯飞的作战图是这样的:2023 年 5 月,科大讯飞发布星火认知大模型;6 月 9 日,突破开放式问答,多轮对话能力和数学能力再更新;8 月 15 日,突破代码能力,多模态互動再更新;10 月 24 日,通用模型对标 2022 年 11 月发布的 ChatGPT(GPT3.5),中文能力实现超越 ChatGPT,英文能力与 ChatGPT 相当;到了今年 1 月,星火认知大模型的数学、语言理解、语音互動能力都超过了 GPT-4 Turbo,代码和多模态理解能力也达到了 GPT-4 Turbo 的九成。
"6 个月内,我们可以达到现在全世界最好的 GPT-4 最优的水平。" 刘庆峰说。
OpenAI 最新推出的 Sora,被称为 " 世界模拟器 ",被认为颠覆了现实与虚拟的界限。但不同于 OpenAI 在技术上的 " 花活 ",刘庆峰是一个坚定的务实主义者。
来源:受访者
刘庆峰认为,对于大模型的多模态能力,生成视频只是娱乐,更优先级的是进入工业场景、生活场景、家庭陪伴机器人等具身智能," 大模型的多模态理解能力比多模态生成更重要 "。
1 月底,科大讯飞发布业绩预告,预计 2023 年实现归属于上市公司股东的净利润 6.45 亿元 ~7.3 亿元,同比增长 15%~30%,公司在人工智能通用大模型及行业大模型方面高强度投入并取得显著进展。2023 年,科大讯飞的股价上涨了大约 42%,截至 3 月 7 日收盘,其股价为 50.27 元,总市值 1164 亿元。
以下为刘庆峰采访内容实录(有删减):
谈 AGI 与新质生产力
刘庆峰:第一,通过人工智能对现有的产业,以 " 人工智能 +" 的行动来进行全面赋能。由于这一次以大模型为代表的通用人工智能的发展,它在文本生成、知识问答、逻辑推理、数学能力、代码能力、多模态能力等方面都有非常强的提升。
所以它可以改变信息生成的方式,改变知识生成的方式,改变人机互動的方式,改变科研范式和代码编程这些产业的效率,会彻底颠覆现代以人力和市场为主要形式的商业模式。
人工智能本身就会为传统产业以及各产业在更新过程中,带来全新的新质生产力价值环节的提升。
第二,人工智能可以创造更多的全新的产品和业态,可以带来未来全新的发展机会。举个例子,当我们的(机器)翻译技术没有超过人工之前,翻译机是很难普及的,可是随着技术进步,现在伴随出境游客变多,我们的翻译机销量大增。它不仅仅是一个中英翻译,它有 80 多个翻译语种,覆盖全世界 200 多个国家和地区,这些技术都带来了全新的成长。
类似翻译机这样,人工智能创造了很多全新的产品形态,比如医疗方面,有了银发关怀、家庭医生随访、慢病管理、院后随访等,很多原来没有的服务形态,现在通过人工智能技术一把创造出来了。
谈 AGI 实现的路径
刘庆峰:我觉得基本逻辑是这样的:ChatGPT 让人看到,用户是愿意为好技术买单的。
OpenAI 通过技术,一开始有用户因为好奇心买单,但是我们可以看到更多的是实用主义来买单。
2023 年五六月份,ChatGPT 的活跃度一度有所下滑,但到 9 月、10 月的时候又重新上来了。最早大家是因为好奇,但实际上它有很多方面做不好的地方,比如有时一本正经地胡说八道,也有很多错误。
从我们既有代码能力来看,它可以通过谷歌二级程式员测试,可是用我们现在给的代码测试集,在真实场景下,GPT 得分只有 62 分,GPT-4 是 71 分,现在我们科大讯飞已经做到 68、69 分了,所以很多人在用的时候会一开始极度兴奋,但在使用过程中也会出现一些失望。
这就跟 Gartner 曲线(描述技术发展周期的专业图表)一样,总有一个概念爆发的梦幻期,然后到泡沫破灭。但它不是真的破灭,是有很多人带着过度乐观、过度神化的角度看到没有那么好,又开始理性,理性之后再慢慢坚持下来,又会出现持续增长,进入推动社会进步的阶段。
这一次我们看到大模型的进程非常快。从讯飞星火也能看到,现在我们有将近 3000 万用户,他们使用最多的不是周末而是工作日,不是晚上而是白天,上午 9:30、下午 3:30 是高峰期,因为它提升了你的工作效率,带来了很多刚需应用上的提高。
所以通用人工智能表现出的特点是一个技术的进步,一个专门的技术应用就可以获得 VIP 用户的付费,可以形成一个产业生态。
但我觉得更大的赋能肯定还是在各个行业领網域的最终落地,体现在最后的具体产品、系统和服务上面,这才是更主流的。
讯飞星火在 2023 年 5 月 6 号推出来之后,短短半年多时间已经有 40 多万个开发者团队,而且在我们整个 AI 开放平台上,2023 年一年新增了 200 多万个开发者团队,大家在各个领網域用它来创造新的产品。
谈 OpenAI 推出的 Sora
刘庆峰:大家对 Sora 过度神化了。实际上,它的底层能力还是 GPT-4。没有 GPT-4 的语义理解能力、文本生成能力,Sora 是没法做出来的。
在基本能力之上,OpenAI 做了语音大模型 Whisper,做了视频理解大模型 GPT-4V,实际上因为有了 GPT-4 的底层能力和 GPT-4V 来帮助做标注,因为很多的视频原来靠人去标注,一帧画面,你要花很长时间才把所有细节都写清楚。
举个例子,迪士尼卡通片《白雪公主》画了好几年,因为你要把它一帧帧的所有细节都描述出来,靠人难度太大。GPT-4 会帮助人标注,使得数据标注这件工作能够快速启动,从而使得大模型可以训练,然后用传统的常规影像生成方式结合 Transformer 的架构,就是现在我们看到的 Sora。
来源:Sora 演示视频截图
Sora 并未让大模型应用对真实世界理解又上了个大台阶,也不是对物理的认知又上了个台阶,本质是 GPT-4 的底层能力在这个领網域的一个成功实践。
对千行百业赋能更重要
刘庆峰:讯飞星火 3.5 现在已经超过 GPT-3.5 了,我们正在对标 GPT-4,半年内,我们能够达到现在 GPT-4 最好的水平。
当然,GPT-5 一出来,我们有可能跟它又有点差距了,但我们还在迎头赶上,我们知道怎么做。我们本来计划是星火对标 GPT-4Turbo,然后年内会出 GPT-4V,现在 Sora 出来,大家有很多需求,有可能我们会把 GPT-4V 的进度往前提,然后再做 Sora。
从本质上来说,我们和 OpenAI 没有代际差距,只是我们的算力、我们的数据资源优先往哪边放的问题。我们也有类似的计划(推出 Sora),但这个计划要排在通用大模型后面一点。
在我看来,对千行百业的赋能,大模型多模态能力中的多模态理解能力,其实比多模态生成更重要,它会对工业场景,对生活场景,对家庭陪伴机器人,对具身智能有巨大的推动。
生成视频还只是对娱乐,对媒体(赋能)。大模型的多模态识别才是对千行百业深度赋能,这个我们排在更优先级,而且我们现在在国内更加领先了。
与华为合作新进展
刘庆峰:我们跟华为通过软硬體深度联手,2023 年 10 月,我们在国内推出首个万卡规模的可以训练万亿浮点参数的国产大模型 " 飞星一号 "。
星火 V3.5 就是基于完全国产算力训练出来的,国产算力现在跟美国最新的算力比还有一些差距,但是通过軟體和硬體的深度结合,通过网络,多卡多机联动的优势可以做适当弥补,从而使得在算力方面我们不至于被彻底卡住 " 脖子 "。
在这个基础上,我们同样可以训练出追赶美国最好的大模型系统。通过大模型能力快速追赶的同时,我们就可以在教育、医