今天小编分享的互联网经验:赵何娟:中国AI追随之路的五大误区,我们至少落后十年,欢迎阅读。
近日,由长江商学院主办、汕头大学协办的 "2024 长江独角兽峰会 " 上,钛媒体集团创始人、董事长、CEO 长江商学院 EMBA 项目校友 赵何娟发表主题 " 中国 AI 追随之路的五大误区 " 的演讲。
以下是钛媒体 AGI 编辑整理的演讲主要内容:
各位校友,大家好,我今天演讲的题目是 " 中国 AI 追随之路的五大误区 "。
从钛媒体角度来说,在 AI 领網域我有两个角色,既是 AI 领網域里面的研究者报道者,也是 AIGC 在内容产业变革中的实际应用参与者。
从 AI 1.0 的时代,钛媒体就紧密地关注 AI 领網域的发展,而在 AI 1.0 时代,无论是中国上市公司还是应用角度来看,与美国相比,我们好像已经有赶超的趋势。但是到了 AI 2.0 时代,也就是 AIGC(生成式人工智能)时代下,我们突然发现,为什么中国一夜之间好像就变得落后了。
下午我都很认真的听了每一位嘉宾的分享,其中有嘉宾问到说,为什么好现在 GPT 火了之后中国大模型很快就赶上来了,说明跟美国相比,中国的实力、能力建设就可能差了一点点。
但其实我现在想 " 泼点冷水 ",我觉得短期来说我们可能有点太乐观了。不仅对中国市场过于乐观,而且可能对全球 AI 应用爆发的速度也可能过于乐观了。我认为,短期内没有大家想象那么快,长期又可能过于 " 忽视 ",总想着是不是马上能赚钱。
我们报道 10 多年,一直跟踪这个领網域,其实中国有很多 AI 领網域的创业。但我们现在已经处于一个相对落后的状态,我们可能要更多地面对现实,怎么走出 " 伪 AI 创业区 "。
接下来我再详细讲一下。
AI 领網域今年最受关注的两件事:AlphaFold 3 刚刚发布、GPT-5 即将发布。
首先就是昨晚(8 日)钛媒体最早、最全面报道的 Google DeepMind 团队发布的 AlphaFold 3 模型。
2022 年,AlphaFold 2 增强版发布,两年之后的今天,它更新到 AlphaFold 3 模型——生物学领網域关于蛋白和生命结构预测的模型。这个过程中的最根本的一个变化,就是把底层计算方式、模型算法变了。
AlphaFold 3 使用了基于 Transformer 生成式模型和扩散模型的结合,对于蛋白质与其他分子的相互作用,与现有预测方法相比,AlphaFold 3 预测精度提高 100%。
之前的 AlphaFold 2 预测精度已经较之前至少翻了一倍,如今再翻了一倍。这个过程中相关科学家有过对比,这可能为生物研究界带来了数亿年的进步,节省数万亿美元。
也就是说如果不用这次 AI 大模型,我们靠研究人员自己去研究,可能要花数亿年、花掉数万亿美元才能达到现在的计算效能。所以,这就是真正 AIGC 的力量。
但中国在此方面的研究成果几乎是 " 空白 " 的。今天我们还发了颜宁教授的演讲,前两年她还说 AI 不可能准确预测蛋白相关结构,如今的发布可以说被 " 打脸 " 了。
第二个就是 GPT-5 即将发布。
我认为,这件事情带来的震撼力不会低于 AlphaFold 3 的颠覆性技术影响。因为 GPT-4 的发布就是比 GPT-3 更加震撼。
为什么中国能快速发展很多模型,我觉得这个最重要的是感谢开源,因为 GPT-3 之前 OpenAI 是开源的,包括谷歌 Transformer 论文也是开源的,GPT3 之后才改成闭源了。
这意味着,从 GPT-3 到 GPT-4 本质上已经是一个巨大飞跃了。而即将发布的 GPT-5,将再次实现比 GPT-4 质的飞跃,解决诸多局限性。
我去年 9 月见了 OpenAI 创始人、CEO 奥尔特曼(Sam Altman),他说过去一段时间 OpenAI 一直都在问 GPT-5 做准备。但如果 GPT-5 性能只是一个简单能力提升的话,不会间隔这么长时间。而 GPT-5 的一个本质变化,可能会把相关的推理模型、相关数据会做一个分离,同时可能会推出他们自己的搜索引擎。
而这些令人震撼的进展,在中国我可以悲观一点叫 " 望尘莫及 ",乐观一点就是但凡它推出来,我们就有能力改善和追赶。
我接下来要重点谈,为什么现在我们说,中国作为 AI 领網域追随者,要有追随者的自觉,那就是不要过于抬高自己,主要好好学习。明确我们现在面临的一个事实,所以我们首先明确几个误区,才能够清楚我们自己到底在什么位置。
第一大误区:中美 AI 差距只有 1 到 2 年。
我认为很重要的就是,大家每次都谈谈中美 AI 差距大概是只有 1~2 年,那是不是真的就是 1~2 年,为什么会是 1~2 年?因为会有很多人说 GPT3 发布就在 2020 年,那可能在 2022 年 chatGPT 出来之后,我们也快速出来了类似于 GPT3 相关的模型,GPT4 出来之后,我们也很快能出来一个对标 GPT4 水平的模型,就意味着我们相差的时间可能是 1 — 2 年,真的是这样吗?
我会觉得所有用这样时间来表述差距的都是 " 耍流氓 ",因为那是人家创新蝶变的代际时间,不是我们的差距时间(能力水平)。
如果说 GPT-5 现在不能出来,我们可能 10 年都追赶不上。但是 GPT-5 出来,我们可能也许花 2~3 年能赶上。而 GPT-5 模型水平只是人家的创新节点、迭代时间水平,不是我们自己能力水平,这一点需要非常清楚,这也是我们本质上的一个差距。
我们要看到,这真的是创新引领的差距,不是一个我们花两年赶上一个模型就改变了中美 AI 差距了。
第二个误区:中国是全球最大的 AI 专利和人才市场。
我们常常会说,尤其是在 AI 1.0 的时代,中国投资人和创业者到美国硅谷做相关演讲说,中国 AI 已经领先于美国了。背后经常会提到的一个指标是,中国是全球最大的 AI 的专利和人才市场。
这个专利市场包括我们中国发布 AI 相关论文和申请 AI 专利的数量,可以说全球数一数二的,然后以及从事 AI 相关人才的数量,我们可以说全球数一数二。
但事实是什么样的呢?
我们可以看这张图,里面可以看到,新一代全球数字科技领網域,大多数都是以 AI 相关论文的,中国排名确实是很高的。但是到相关顶尖论文的数量,或者说被引用论文次数的数量,我们一下就落下来了。
也就是说,事实情况是,虽然我们的论文数量是全球领先的,但是作为世界公认标准 Top one 的顶尖论文数量,中国不仅低于美国,我们也低于德国、加拿大、英国等。
与此同时,我们可以看到我们相关工程师人才。
中国确实在大学当中培养大量工程师、计算机领網域人才,包括很多硅谷的大企业都到清华北大,到中国招聘计算机专业人才。
但是我们可以看到,即便是在 2022 年顶尖研究人员里面,虽然中国也是排在第二名左右,但是一上到顶级 AI 研究人员数量,只有美国的 1/5 左右。。如今,2024 年可能比两年前更糟糕了。
所以这不是我们想的那样,中国是全球 AI 人才大国。
第三个误区:中国 AI 的主要障碍是在算力上 " 卡了脖子 "。
中国 AI 的主要障碍在于 " 算力卡脖子 "。我们认为算力卡了脖子,所以我们只要以各种手段能够买到相关的芯片,那是不是就已经达到相关水平了?
但是我想给大家泼一杯冷水的是,在这一轮 AI 2.0 的这一轮发展里面,不仅算力很重要,模型创新能力也很重要,数据能力也很重要。因此,现在的事实是,我们不仅是 " 算力 " 是瓶颈,我们的底层模型的创新能力、数据能力都是 " 瓶颈 "。
我先说数据能力,很多人觉得中国是一个很大的应用市场,中国的消费者数据,企业行为数据等等各分析的数据一定是很丰富的,所以大家觉得中国是有充分的数据,但是我要非常残忍的告诉大家,很多数据都是无用数据,或者是不可用数据。
我在今年年初的时候跟美国气象的一个华裔科学家,同时也是中国气象所的顾问,在讲到气象数据的时候,我说我们也有相关的公司推动了相关气象计算预测的模型。那个科学家就非常直白的说了一句,我们所有的气象数据几乎都是没用的,因为我们缺乏对历史气象数据的整理,缺乏气象数据的归纳,缺乏气象数据相关的整合,变成可计算的数据。
目前对于中国而言," 都缺 "。美国 AI 生态里面最重要的一个就是关于数据市场的建设。但在中国,理论上说是没有数据市场的。这个就是生态建设能力里很重要的,就是关于数据市场的建设。那你数据市场不成熟,你能算什么?
中国的模型公司,可以说在中文的计算能力上相对来说是领先的,但是整个中国的数据市场占全球的数据市场不到 1%,以及再看所有的数据有效性的时候可以看到,世界主流所有相关的论文数据、研究数据,包括用户的应用数据,视频也好,还是文字也好,相关的应用数据,绝大部分依然是英文的数据。
所以如果我们不能很好的用英文的数据计算,我们如何能形成我们自己有足够竞争力的大模型,这个是很难的。这就是为什么我说我们不要以为美国只是卡了我们的算力脖子,好像只在半导体上发力就行了,实际上是整个生态能力建设,从算力到底层模型的创新,到数据能力和数据市场的生态的建设,我们整体都是落后的。如果非要用时间来说的话,真要把能力建设起来的话,没有十年的时间是很难把它很好的建设起来的。
第四大误区:闭源大模型 VS 开源大模型 谁更好?
前段时间可以看到有一些企业家和网红一直在争论说闭源大模型好,还是开源大模型好,我觉得这更好这事情根本不重要,只有谁更合适。
其实不管是开源还是闭源都有各自的优劣,就像手机的 iOS 是闭源,安卓是开源一样的,它是有各自的优劣。可能目前在性能上来说,尤其是大语言模型,因为现在大语言模型动辄就要算千亿级数据都算小的,动辄都是万亿的数据,像 OpenAI 都是数万亿级的数据了,这种时候闭源的性能是明显高于开源的。
对于很多的应用来说,或者对于我们的场景,我们其实是没有必要每一个模型都算到万亿级那么大的,那么在一定程度上里说,开源模型并非不可以。
作为 OpenAI 这种领头羊来说,它的目标是要实现 AGI,就是要实现通用人工这件事情来说,闭源可能会让它有更快,更容易集中更多的资源、资金,更快的实现 AGI 这个目标。
但是对于要来做全社会普及有更多的应用和更多的迭代的速度来说的话,可能开源大模型也是非常必不可少的。所以我们应该跳出是开源大模型更好,还是闭源大模型更好这样的争论来看,不管是哪一个更好,最重要的都是我们是否有自己的创新能力,是否有自己的原创性能力,而不是低水平的山寨。
我们在说百模大战,千模也好,假如说我们的模型都有各自的创新点,都在各自的领網域里能够发挥出相关创新的作用,那么一个也不多。
假如说百模大战也好,千模大战也好,不能有任何的创新点,只是在低水平的山寨和复制、内卷,那么确实一个也不需要。所以我觉得这个才是真正的问题,就是自己能不能在模型的创新能力上真正的走到世界舞台上,这是要好好的想的事情。
第五个误区:AI 在各大垂直产业的爆发,会很快发生。
在中国我听到最多的都是说,我们马上要进垂直产业的爆发,今年都是大模型应用爆发的元年。我今年年初就跟一些朋友说,今年不可能是 AI 垂直产业爆发的元年,可以说是应用的开始,但不能说爆发的元年,不可能马上爆发,因为所有的事情都是有基本规律的,一个产业、行业的发展都是有规律的。
而核心的原因就是因为,我们整个基础设施能力还没有达到产业广泛应用的标准。
比如说现在的 SORA 也好,还是什么应用也好,我们已经达到了 50% 的水平,那我是不是可以有 50% 的应用呢?不是的。如果说产业应用必须要到 90% 的水平,你只有 50% 的水平,哪怕只有 89% 的水平,你都不可能在这个产业里快速的得到爆发级的应用。
大家不要认为只有中国算力被 " 卡脖子 ",而是全世界的算力都被 " 卡脖子 ",美国企业也一样被算力 " 卡脖子 "。这就是为什么,OpenAI 在推进 GPT-5、GPT-6 的过程中速度依然还是很慢的,更深层次是 AI 大模型就是一个 " 暴力美学 " ——以足够大的数据、算力、能源为前提,否则一定会被 " 卡脖子 " 的,它一定是只能一点点来推进的。
有很多企业可能会指望说,中国公司认为在技术创新能力上不如美国,但中国市场规模要比美国大、中国的应用能力要比美国更强,那么我是不是集中于创业做应用,从而能快速获得成功或者成果?
但我认为,这件事长期来看是这样的,但短期来看是没有机会的。
OpenAI CEO 奥尔特曼(Sam Altman)也说,95% 创业公司依附在大模型上开发,但是大模型每次大规模迭代都会取代一批创业公司。
AI 也不会违背一般商业定律,所以当基础能力积累到一定程度前,即便用了 AI 也不见得会取代原有产品。
这也是我今年跟 Pika 创始人在聊的时候,她最大的危机感。我问她你觉得 Pika 最大竞争对手是 runway 吗,她却说最大的危机感是来自 OpenAI,因为 OpenAI 一定是要做多模态的技术。所以我认为,当基础能力积累到一定程度之前,即便做了 AI 应用,也不会取代之前应用。
因为基础建设能力还没有达到为这个行业产生质变的时候,它就不可能变成一个 " 爆发 " 型新的 AI 时代。
很多人说,中国移动互联网应用就在全球领先,但我们现在所处的历史时间点位置不是对应互联网时代,移动互联网应用的爆发阶段,即 AI 当下发展阶段,不是后互联网发展阶段,而是相当于早期思科的阶段。
现在的英伟达就像当年的思科,当年思科在美国市场上一骑绝尘,一年能涨 60 倍股价的时候,那个时候有什么互联网公司是值得一提的吗?那时候很多现在的互联网公司可能都还没有出现。后来也是基础设施能力的提升,通信技术从 2G 到 4G 的发展,网络技术的提升、移动互联网、长视频短视频的应用逐渐出来。
现在的 AI 应用,还是在帮助我们怎么提高产业效率,但想要彻底改变这个行业来说还需要时间、需要耐心。
这就是为什么我们说,目前还是弱人工智能,中国的大市场优势暂时无法发挥。短期内,还是内容生成相关辅助工具为主,比如搜索、问答、文生图、文生音视频等。
那么,接下来,我们要如何应对这些?
我觉得我们可能真的要形成一定的社会共识,怎么在一个全球环境和 AI 发展过程中来做我们应该做的事。
第一个,加大基础创新长期能力建设。
这种生态能力建设非常重要,甚至要从教育开始抓起,比如建立 AI 教育、高校教育体系评估标准、相应的学术开放和交流的体系等,需要围绕着 AI 本身的创新技术能力去重新匹配。同时,我们也要提高大模型研发创新的基础能力,没有这个基础,其他的都是 " 无源之水 "。
第二个,是耐心面对各产业应用场景的 AI 爆发周期,每个被 AI 改变的产业都面临要从基础底层技术改变开始的新周期,不会 " 一蹴而就 " 或者 " 一夜爆发 "。
我认为每个可能被 AI 改变的产业,也都要面临从底层基础设施改变,并开启一个产业的新周期,比如我们媒体行业其实也要从底层周期开始变化,而不是说我马上就在应用层彻底变了,不是这样的。包括相关的机器人行业、制造业、生物制药行业等等都会发生颠覆性影响,但从这一点来说,我们的基础科研能不能跟得上,这就变得非常重要了。
每一个产业都有自己的底层能力、从零开始的地基建设,这个才是我们真正的产业周期。
第三个,是用更开放态度,迎接全球 AI 建设的竞争与挑战,不能自己卡自己脖子。
很多人都说,美国人卡我们的脖子,但现在我希望,我们自己不要卡自己的脖子。这也是为什么我说,我们不要低水平的山寨竞争,甚至我们可能也希望在 AI 治理、AI 规范,甚至 AI 伦理建设上面缓一缓,而是应该在 AI 创新层面更加激进一些,要用更开放的态度去做这件事。
我希望,我们 AI 领網域的研究,不要走新能源汽车的 " 老路 ",可能 10 年前我们新能源汽车还是有创新的,比如在智能体验、动力电池技术等领網域还有很多创新。但是到今天,包括小米的进场,我们却都是在低水平、重复性 " 内卷 ",这就意味着我们很难向前发展。
所以,我希望我们的基础研究能力、创新能力能够走得更快,能够更耐心一点。
最后,推荐一下钛媒体 AGI 这个新产品。钛媒体是 AI 领網域的重要推动者和普及参与者,旗下钛媒体 AGI 也是一个全新信息产品,目前主要专注 AI 前沿资讯,聚合全球范围内的 AI 科技动态。围绕深度内容,打造多形态内容产品矩阵,深入挖掘行业趋势、技术革新以及商业应用等方面内容,为企业和用户提供最新、最热的 AI 资讯,呈现一个完整而丰富的 AI 世界。
欢迎大家订阅和关注,谢谢大家。