今天小编分享的科技经验:智谱AI张鹏:中国大模型基本能力已比肩GPT-4,欢迎阅读。
作者 | 叶蓁
编辑 | 康晓
出品丨深网 · 腾讯新闻小满工作室
2023 年下半年,在参加多场国内大模型行业研讨会后,智谱 AI CEO 张鹏强烈意识到:中国创业者不应该给自己贴一个只擅长 "1 到 100" 的标签,然后限制我们去想 "0 到 1" 的突破可能。
" 能不能把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步?"
张鹏的问题,源自中国大模型产品和 ChatGPT 在认知上的差距。
" 用个不太好的词,得其形未得其神。虽然双方某些层面也是一致的,比如不约而同的把多模态作为最新模型的关键特征,但多模态为什么重要,大家不是都能说得清楚,这就是差异。"
张鹏和智谱 AI 试图从本源上来理解 OpenAI 背后的逻辑,来对齐 GPT-4 的水平。
基于此,1 月 16 日,在 2024 智谱 AI 技术开放日 Zhipu DevDay 上,张鹏发布了新一代基座大模型 GLM-4。
据介绍,GLM-4 在基础能力上实现大幅更新,性能相比上一代全面提升 60%,逼近 GPT-4。其支持更长上下文、更强的多模态,包括更高精度的文生图性能和更丰富语义的图片理解。
同时,GLM-4-All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用 WebGLM 搜索增强、Code Interpreter 代码解释器和多模态生成能力以完成复杂任务。GLMs 个性化智能体定制能力上线,任何用户用简单的提示词指令就能创建属于自己的 GLM 智能体。
毋庸置疑,当下的智谱 AI,正处于浪潮之巅。去年 6 月,在硅谷科技媒体 The Information 的盘点中,智谱 AI 被视为最有可能成为 " 中国 OpenAI" 的 5 家企业之一。
在 2023 年智谱 AI 的全员大会上,张鹏很感慨," 生在这个时代很幸运,一辈子几十年的时间,可能就赶上这么一波技术的潮流。"
2019 年成立的智谱 AI 是国内最早研发大模型的企业之一,由清华大学知识工程实验室(KEG)技术成果转化而来。智谱 AI 的去年完成了累计 25 亿元的融资,投资方包括美团、蚂蚁、阿里、红杉和高瓴等。
在经历了追赶 ChatGPT 的一年后,张鹏认为,2024 年中国大模型的主题词是顶天立地。" 我们希望朝国际上最先进的水平去看齐,在技术上和应用上去尝试顶一下天;而立地这个事情就是把公司的商业化做好。" 张鹏告诉《深网》。
以下是腾讯新闻《深网》专访智谱 AI CEO 张鹏实录整理,在不改变原意的情况下有所删减:
" 与 GPT 4 水平对齐 "
《深网》:最近大半年时间,GPT 和国内大模型产品的发展速度是不是达到预期?
张鹏:GPT 的发展速度还是挺快的,几个月时间做到 2 亿用户。不管是 GPT4, 11 月份发 GPT store,还有最近疯传的 GPT5,不管真的假的, 可以看到 OpenAI 也在快速的往前更新和迭代,确实没有让大家失望。
国内的发展速度也挺快的。站在国外的角度看国内的大模型,能明显的感觉到国外对于国内产品的发展速度挺认可。
对比国外一些比较知名的权威人士和团队写的文章,从整个时间演化顺序来看,出现在文章里的中国厂商产品是在增加的,国外的同行很关注我们在做的这些事情。
《深网》:智谱 AI 最新的技术突破是什么?
张鹏:我们带来了新一代的模型 GLM-4,大腦本身的聪明程度提升了,原来是一个高中生,现在可能到了大学生水平,大腦的水平提升的同时,我们也让它长出了手脚、眼睛、耳朵,具备了跟现实世界和数字世界进行互動的一些基本能力。
《深网》:目前智谱 AI 的水平,可以对标 GPT 的哪个阶段?
张鹏:我们一以贯之的是瞄向 AGI 路径中的一个阶段,每 3-6 个月更新一次做一次更新,每一代都会有一些不同,比如说上一代我们解决的是模型能力矩阵的对标,然后这一次是模型的能力上跟 GPT4 做到基本对齐,GLM-4 的基本能力已经比肩 GPT-4。
《深网》:对标 GPT 4,最重要的是提升你们的多模态理解能力?
张鹏:多模态能力是其中非常重要的一个组成部分。我们聊多模态的时候,首先映入腦海的文生图、图生文,这个事情原生的驱动力是要解决跨模态的理解和生成,其本质是什么?在 AGI 的版图里,它代表的是什么意义?
当时我看到 GPT4 的报告触动很大,大家都在做文到图生成的时候,GPT4 做了一个图到文的理解、推理和生成,它为什么要做这件事情?
我个人理解,人的视觉、听觉、触觉等,都是原始的基础数据和信息的感知能力,但语言是人造的,用抽象符号来描述这些原始信号的东西。本质上,语言是一种更高阶的信号。
人之所以为人,是因为语言,这件事情诞生是一个非常重要的节点。两个节点,一个是工具创造和使用工具,一个是语言,这是人工智能发展两个大的标志。
从抽象数据生成具象化内容(文生图),比从具象信息到抽象信息的转换(图到文),要更容易一些。为什么?因为具象的信号收集更容易,它包含的信息量的密度小;但从低维信号里面去抽取高维信号是难的,要排除掉噪音,得到价值最大的部分。
本质上,由低级信号到高级信号,更能体现认知的能力。
GPT4 实现了影像的理解和推理,我们认为这是非常重要的一个方向。整个 2023 年,我们在多模态方面花了很大的精力去做图生文这件事情。而 Gemini 的发布也验证了这个事情,谷歌也认为这件事情很重要,谷歌甚至走的更远,它把影像、视频、声音、全部统一到一个模型里去学习。
《深网》:代码增强能力也是目前大模型之间的竞争点?
张鹏:代码增强是一个比较实际的问题,训练语言模型的认知能力,类似于再造一个大腦,需要更强的思考能力、理解能力、推理能力和认知能力。
大腦如果不和外界接触和互動的话,永远是个缸中大腦,能力再强也干涉不了现实世界。代码增强赋予了大模型互動能力,也包括搜索增强能力,让大模型长出手和脚,眼睛和耳朵,更自主的去获取信息,更方便的去跟外界的这些系统进行互動。代码增强让大模型产生更大的价值。
"2024 关键词:顶天立地 "
《深网》:2024 年,你认为国内大模型的主题和趋势是什么?
张鹏:顶天立地。顶天也可以用创新来表示,顶天就是去突破,技术上创新,应用上创新,都是顶天的事儿,往上突破的事儿。
2023 年国内企业在技术上都是一个追赶的态势,智谱 AI 稍微靠前一点,2024 年我们希望朝国际上最先进的水平去看齐,在技术上也尝试去顶一下天,GLM-4 就是我们这方面的最新尝试;还有一个就是应用,两条思路——原来的钉子砸一遍和找到新的钉子。把原来钉子砸一遍,这个事情大家都能想到,就是用大模型改造现有的工作流程;找到新的钉子,意思就是尝试一些突破性的创新。
立地这个事,不管技术的突破也好,应用的创新也好,回归到公司本身还是要把商业上的业务做踏实了,转化成公司的收入和收益,创造客户价值。
《深网》:国内有投资人认为,OpenAI 的技术本身没那么难?
张鹏:这种表述可能不严谨,更严谨的表述是从技术原理上来说,OpenAI 确实没有太多神秘的地方,而且有很多原创的技术也不是 OpenAI 发明的,它把这些技术发扬光大或者做到极致。但从技术工程和落地上来看,这就是一件了不起的事情。
ChatGPT 从技术原理、工程化、应用到市场,是一个非常紧密的闭环,很难单独割裂来看。
《深网》:从技术上看,国内的大模型能赶超 GPT 吗?
张鹏:现在还是一个追赶的态势,我们也一直在缩小之间的差距,毕竟后发有后发的优势,也省去了前面的一些探索,把精力集中在相对正确的路径上。但说实话,光靠这样的东西不太可能实现超越的,因为大家的路径是一样的,因此最后你可能最多做到和 tGPT 一样。
这正是智谱选择自研 GLM 预训练框架的原因。我们尝试用局部的或者整个链条中的一些创新突破,来提升我们追赶的速度。
OpenAI 起步比较早,发展的速度体现为曲线的斜率,国产大模型起步比它晚,只有用一点一点的积累去调整发展速度,调整曲线的斜率,才有可能预期会越来越近,会有一个交叉的点。
因此,算法、系统工程、数据、应用到落地等等这一个链条上,所有的创新累加起来,才有可能去超越它。
《深网》:未来各巨头都会有自己的大模型,产品会不会趋同,差异化在哪?
张鹏:我们公司在做全局的能力,这些能力对对于 AGI 的整个的目标达成 , 是必不可少的部分,有些会偏向应用去做,有些是偏向行业去做,慢慢的会有一些差异。
" 从 0 到 1" 的标签
《深网》:OpenAI 前一阵的人事风波对 GPT 的技术演进影响大吗?
张鹏:目前看起来好像没有太大的影响。
《深网》:在您看来,国内大模型目前和硅谷的差距主要在什么维度?
张鹏:差距从各个方面都能列举一些出来,我觉得本质还是大家对这个事情的认知。以 OpenAI 和谷歌这些世界顶尖级团队为代表,他们对大模型的认知一定是非常高的。
《深网》:为什么存在这种差异?
张鹏:去年参加一些论坛和圆桌,大家讨论认为,中国人不太擅长 0 到 1,但很擅长 1 到 100。我在思考为什么?大家去总结过去的一些事情,以移动互联网和互联网举例,中国都不是技术的起源,但从应用的角度来说,中国的公司跑的都很猛,超过了美国公司。
当然这些过去不足以去贴一个标签,限制自己去想 0 到 1 的事情,我一直在想,我们应该能够把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步。
《深网》:你认为大模型的本质是什么?
张鹏:我觉得大模型是我们在探索 AGI 的过程当中,尝试去理解或者是模拟接近人腦的认知能力的一种技术手段,它是基于人工智能的行为学方法。
《深网》:如何看待 AGI 下半场的竞争格局?
张鹏:严格来讲不叫 AGI 的下半场,应该是生成式 AI 的第二场。后面还有几场,我不知道。
AGI 也不等同于生成式 AI。大模型可能是我们在追寻 AGI 过程当中一个非常有效的技术手段,但可能并不代表 AGI。AGI 很难,还有很多问题需要去解决。
《深网》:对国内的通用大模型来说,现在是个什么样的节点?
张鹏:我想经过 2023 年的充分竞争,现在我们逐渐可以说进入一个决战时刻了。
" 闭源让企业更容易获取收益 "
《深网》:开源和闭源,目前来看会导向两条不同的技术和产业路径?
张鹏:开源和闭源确实是两个事情。开源、闭源和商用之间是什么样的关系?
在我看来,开源是整个产业大的生态里必不可少的一环,是技术的多样性和创新的活力和动力。开源会有一些允许的,会被拿去做商业,但真正大规模的商用最终会落到闭源。商业价值上,尤其对中大型客户而言,选择并不在于这个技术本身获得的成本,还包括了技术的稳定性,支持程度,一致性,服务和安全一系列的问题。
从商业应用来讲,闭源版本可能会让企业获得更好收益,来维持比较好的商业化服务,所以开源和闭源目的不一样,本质也不一样。
《深网》:能否分享下智谱商业化落地进展?
张鹏:从整个商业化落地的路径上来说,我们会有自己的一些选择,这个选择是来源于我们团队的基因,以及我们对当前市场的一个综合判断。我们很早就确定我们要做 TO B,我们也罢商业化落地的主要精力放在这块;TO C 我们也会去做,但我们的目的也比较明确,把闭环做起来,给未来也留下一个可能性, TO C 应用这一块可能未来也是一个要爆发的点。
TO B 这块像开放平台,实际上是我们对于 TO B 服务落地的一个具象化的结果。
《深网》:人工智能此前没有爆发,是不是缺一款划时代的产品?
张鹏:人工智能的爆发不是一个产品能决定的事情。就像上一代 AI 的技术,能够说它不够爆发吗?每天刷脸,支付,语音都已经到这种程度了,算不算爆发,但大家为什么认为那个不算爆发?可能潜意识里觉得它不是我们想象中的人工智能,而更像是工具。
《深网》:国产手机也在开发端侧大模型,英特尔和联想等开始发力 AIPC,这些硬體领網域的 AI 革命会不会带来相关产业的重塑?
张鹏:我觉得大概率会,大家希望在手机上用到新东西,需求是存在的。第一怎么把这个技术的路径走通;第二把成本降下来;第三个把使用的体感提升上去,某种程度上讲,这三件事是同步要进行的。