今天小编分享的科技经验:九合报告:不朽的计算——比特连接世界,词元生成未来,欢迎阅读。
计算,作为一种表达与理解世界的方式,它引起的颠覆正悄然发生。2022年,ChatGPT抓住了全世界的想象力,让人们意识到AI的重要性和能力上限。在此之前很长一段时间里,AI 的相关研究和应用主要集中在解决特定问题和任务上,而AGI的实现一直被认为是一个更为复杂和遥远的目标。2023年,生成式AI应运而生, AIGC时代大幕徐徐开启。
作为一家早期投资机构,九合长期在一线关注"计算演进"带来的结构性变革。我们既保持着与最前沿创业者的高频交流,也不曾懈怠以宏观视角去思考脉络,推演未来。站在今天,我们观察到:计算正从一种辅助性质的工具,逐步演进为从神经网络算法开始涌现的一种"类似人类"的工作方式。从工具,类人到未来可能的超越,计算正涌现出无限的生命力和扩展性,其扩展的边界正在迅速蔓延,直至计算的范畴超出个体的生命边界与生命经验,直至计算的维度超出单一劳动力的知识密度和知识体量,直至计算数字化一切,不朽的计算成为现实。
我们认为,AI将成为下一代计算平台,智能体本身将不止于提升生产效率,而是有可能作为新兴超级生产力真正参与到经济生产与社会生活中,而我们正处于平台转变的初期阶段,这将深刻影响未来投资与创业机会。
一、计算不朽:对世界理解与表达的迭代
在人类历史的大部分时间里,我们都有点像LLM,基于经验,通过匹配我们头腦中的知识和思维模型来解决问题。
几个世纪前出现了更系统的形式化,数学符号和"数学语言"的发展为数学提供了一种系统的表达方式,并使代数、微积分以及最终的现代数学科学成为可能。从数学科学的所有成功中,我们开始相信,一定有公式来预测一切,期望总结出一些规律,然后通过规律推理演绎出新的规律。从工业革命开始,理性主义更是成为主流,我们一直习惯于做工程,从"看到齿轮是如何啮合的"从而"理解"事物是如何工作,逐步提高生产力。
不过,上世纪30年代,哥德尔和图灵时代对纯逻辑系统的能力已经有了明确界定,提出了不完备定理,说明纯逻辑系统是不完美的,一定会推导出相互矛盾的结论。即使是数学也无法最终证明一切,我们总会面临一些无法证明的事实存在的情况。
之后,我们步入计算时代。过往的历史中,我们倾向于把计算视作一种工具(Tool for human),这个工具以尽可能低的成本,提供了远低于人类智慧的辅助功能,带动人类在各个领網域实现自己的想法。自1950年代以来,"逻辑驱动"的人工智能曾主宰很长一段时间。彼时,人们相信依据逻辑的程式是简单的,他们认为人工智能不要急着去"学习"——在我们理解了如何表示事物之后,学习就很简单了。为了抵达智能,科学家们为每个不同问题编写不同程式,纷纷变成"劳动密集型"工种。但人们低估了现实世界的复杂度,问题越大,程式越复杂,越难以细化推导,纯粹基于逻辑是不足以应对的,这条路进展缓慢。
随着AI计算不断发展,不同的路径开始展现。在AI发展的早期,最开始基于小规模专家知识逐步发展为基于机器学习的推理。1980年,卷积神经网络的雏形CNN诞生。1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领網域的深入研究奠定了基础。2013年,自然语言处理模型 Word2Vec诞生,首次提出将单词转换为向量的"词向量模型",以便计算机更好地理解和处理文本数据。2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础。由此开始了今天意义上的大语言模型的突破式进展。
深度学习作为跨学科产物,摆脱了数理逻辑的束缚,吸纳了生物学思想,不追求解释和逻辑,以神经网络开启了"暴力美学"大门——它认为智能的本质是在神经网络中学习连接的强度,不着急去"推理",在学习完成后,推理自然就来了,计算机从数据中学习、进化,让人工智能变成"数据密集型"学科,最终从应用表现中明显胜出,主导当今人工智能的发展。
"计算"开始成为一种更新、更强大的方法,我们用数十亿页的网页来训练LLM,这样它们就能生成典型的人类所写的文本,海量数据的"计算"开始逐步展现了不可还原性,我们很难用传统简单的人类叙事,或者说数学叙事来解释或预测一个系统会做什么。经过深度学习训练的计算机,不再被动按照指令运转,而是像自然界的生命由35亿年前开始进化那样,自主地从经验中学习,并改写着这个世界的角角落落。
人类的生活经验通过代际经验、基因筛选的机制跨越时间传递,而模型可以跨越时间、空间、学科,用海量的计算形成智能,带给我们跨越学科壁垒、生命尺度、地理阻隔的全新思考。将整个世界置于不确定性之上,以进化涌现来考虑的思维,是计算 AI时代最根本的世界观。
二、超级模型:累积计算的高维形态
1.超级模型:凝结计算智慧
模型是能够沉淀智慧的计算形态。模型作为计算的呈现形式之一,赋予了计算更强大的生命力和应用范围。在当下,每次优质的计算输入和输出组成了模型的训练集,沉淀下的智慧能力表现为数亿参数的高维矩阵模型。
来自于计算的关键元素从量变进入到质变阶段,算力、数据、算法都迎来了新的发展阶段,不朽的计算将带来模型能力的质变:
算力:芯片遵循摩尔定律,正在挑战当前光刻机的极限,为我们带来了接近2nm的晶体管密度,这一密度接近人类大腦的神经元密度;
算法:迎来了Transformer的架构革新,为我们提供了可以容纳更多数据的智慧框架,因模型架构的能力边界拓展,Scaling Law得以将每次计算的智力沉淀在模型的高维矩阵当中;
数据:互联网经过几十年的发展,将人类的巨量语料完成了数字化,正在提供更多可以用于训练的数据,越来越多的人类生活信息被线上化、数据化,给计算带来更多学习智慧的素材。
未来,凝结计算智慧的超级模型将出现,当前所有模型都是通往超级模型的阶段性形态,当前模型的能力都是未来超级模型的子集。超级模型的计算能力将会突破当前模型的边界,超级模型的架构将是强大的通用智慧底座,和垂直领網域专家模型的调用:
就底层模型能力而言,参数体量更大的模型、多个专家模型联合调用的使用模式,将会逐渐提升模型的智慧水平;
就模型的输入而言,多模态会帮助模型理解问题的复杂性,从而带来更准确的回答,更长的文本输入将会让模型像人一样深度思考问题的前因后果。
超级模型的Prompt输入,将会扩展至对齐人类的认知输入,乃至超越个体思考的输入水平。只有超级模型的综合能力超越某个个体,模型的智慧水平和能力边界才会拓展至超越人类的范畴。
模型的学习能力无限接近于人类的学习能力,但模型的学习速度、信息获取能力因其硬體设备的可扩展性,而远远领先于肉身人类。如果沿着模型发展的想象力继续推演,硬體基础、軟體模型所支撑的"不朽的计算",将成为我们通向AGI的一种可能路径。
2.多模态:模型的完整感官
多模态能力将是模型的标配,这既是人类拥有智慧的方式之一,也是人类处理问题的重要模态。大语言模型表现出了模型架构的智慧能力,这种模型架构也正在多模态领網域表现出"智慧涌现"的可能性,Sora正是这样的一个范例,模型可能通过视频学习到直接的物理规律,正如孩子可能通过小车玩具学习到惯性规律。
现实世界的情境通常涉及超出文本的信息,包括多种模态,特别是视觉方面的信息。因此,LLM驱动的智能体的下一个进化方向是获得处理和生成多模态信息的能力,这种能力对于这些智能体演变成更加强大的AI实体,镜像人类水平的智能至关重要。人工智能既需要处理单一模态的能力,也需处理多种模态(如视频或音乐),甚至可以跨越不同的模态(如从文本生成影像)的能力。
Transformer 在各个领網域都表现出了卓越的缩放特性,包括语言建模、计算机视觉和影像生成。OpenAI 的 Sora 就是视觉数据的通用模型,OpenAI 首先将视频压缩到较低维的潜在空间,然后将表示分解为时空 patches,从而将视频转换为 patches。Sora 既是个扩散模型;给定输入噪声 patches(以及文本提示等调节信息),训练出的模型来预测原始的"干净"patches。Sora 也是一个扩散 Transformer。
DiT(Diffusion Transformer,扩散模型)让我们看到了Transformer架构在多模态领網域扩展的可能性。沿着这个思路,不同的模态(图片、视频、音频、动作序列等)都有可能通过Transformer架构复合性地组织出对应的生成式大模型。Transformer在其他领網域的延伸,有望带来多个模态内的"智慧涌现",从而让我们看到更全面的AI智慧形态,OpenAI于5月发布的GPT- 4o就是这一智慧形态的初步体现。
3.生成世界:形成世界模型
在《How we learn》中,Stanislas Dehaene将学习定义为"学习就是形成一个世界模型",这意味着智能也需要理解我们周围环境并建立一个内部模型来描述它们的能力。正如OpenAI发布的其训练Sora的动机:"我们正在教AI如何理解和模拟物理世界中的运动,目标是训练出能够帮助人们解决需要与现实世界进行互動的问题的模型。"毫无疑问,人类的很多智能都与世界建模相关,朝着开发像人类一样理解世界的更智能的 AI 模型迈进,是目前智能发展的一条主要道路。
人工智能通过学习形成世界模型,以期在数字世界中可控且可重复地看到在现实中会出现的结果。传统的仿真方法需要一点点建模,积累大量工程数据,不断调试算法和方程,去逼近真实,且当涉及到不同主体的相互关系的时候,其复杂程度在成指数级增长。而以 OpenAI Sora为代表的一系列应用尝试,似乎让人们看到了自学习掌握世界模型的可能,对于模型的语义理解,对于相互之间的动力学关系都有了巨大的进展,其生成式能力为我们接近世界模拟器开辟了可能性。
正如刘慈欣在早期的短篇小说《镜子》中描述的"超弦计算机"的故事:如果用镜象模拟方式为一个鸡蛋建立数学模型,将组成鸡蛋的每一个原子的状态都输入模拟的数据库,当这个模型在计算机中运行时,如果给出的边界条件合适,内存中的那个虚拟鸡蛋就会孵出与现实中的那个鸡蛋孵出的小鸡一模一样的小鸡来,这就是最理想的世界模拟器。
三、智能体演进:以进化方式
1. 人类-人工智能-AGI智能体
(1)始于模仿的智能
人类智能的进化经历了数百万年,人工智能的发展只有60多年。智能是一种现象,甚至是我们可能看到的最复杂的现象。对人工智能的探索始于人类的主体性。制造工具将人类与其他物种显著区分开来,而人有理解自己的强烈动机,探索人工智能,实现 AGI可能是人类在这一能力象限上最后的圣杯。
人工智能最初目标是拥有与人腦相同的功能,但我们不会也没必要对大腦进行完美复制。真正的问题在于,要试图理解这些基本原则是如何从自然界中提炼出来的,从而指导我们构建事物。某种意义上,智能的涌现与生物界的进化相似,进化的聪明难以告诉我们进化是怎么做到的,同理智能体的发展和涌现也未必要等我们完全理解人类智能。在科学没有给出原理帮助我们设计系统之前,我们所能做的就是构造复杂系统,等待AIGC涌现。从更高意义上说,深度学习也可以帮我们更好地理解人类自身,它提供了一个全然不同的视角,并正解开这个星球上最为复杂的奥秘——人类智能的本质。
正如特伦斯·谢诺夫斯基在1989 MIT 讲座上对比的,在苍蝇只有10万个神经元,重量只有1毫克,消耗1毫瓦的能量,但它却能看、飞、自我定位和觅食,甚至可以通过繁殖来进行自我复制。
而超级计算机,需要1亿美元的投资和兆瓦级的能量供应,以及大量的人力来满足它对程式的需求。尽管超级计算机可以与其他计算机交流,但它无法看、飞、交配或自我复制。
(2)何为智能体
人工智能先驱马文·明斯基早在 38 年前就提出了智能体(Agent)一词,介绍了智能体的互動、通信、特性、具身智能等概念。最初的智能体主要是符号智能体,还提到了记忆的构成、推理链、智能体之间的互動、世界模型等概念。他在《心智社会》一书中指出,每个智能体本身只能做一些简单的事情,但是如果智能体形成一个社会,就会产生真正的智能。
Legg和 Hutter于 2017年在"Universal Intelligence: A Definition of Machine Intelligence"中提出了智能(intelligence)的定义:认为"智能衡量的是一个代理在各种环境中实现目标的能力"。同样,在解决问题的智能(Problem-Solving and Intelligence)中,Hambrick、Burgoyne 和 Altmann 认为,解决问题的能力不仅是智能的一个方面或特征,而且是智能的本质。它不仅仅是书本知识、狭隘的学术技能或应试技巧。相反,它反映了一种更广泛、更深层次的理解周围环境的能力。一种"抓住""理解"事物,或者"构思"应对方法的能力。
AI智能体(AI Agents),是一种能够感知环境、进行决策和执行动作的智能实体。它们拥有自主性和自适应性,可以依靠AI赋予的能力完成特定任务,并在此过程中不断对自我进行完善和改进。只有当我们能够创造出一个可以怀疑自身现实的系统,进行自我探索,至少能够应用因果演绎来建立一个合理的世界模型时,我们才能真正实现 AGI。
AI Agent 架构包括以下四个设计模式:
反馈(Reflection):AI模型通过自我反思和迭代改进来提高任务执行能力的方法。在这种模式中,模型不仅生成初始解决方案,还会通过多次反馈和修改,不断优化其输出。
工具调用(Tool Use):AI模型通过调用外部工具或库来增强任务执行能力的方法。在这种模式中,模型并不仅仅依赖于自身的知识和能力,而是利用各种外部资源来完成任务,从而提高效率和准确性。
规划(Planning):通过提前计划和组织任务步骤来提高效率和准确性的方法。在这种模式中,模型将复杂任务分解为多个步骤,并依次执行每个步骤,以达到预期的目标。
多智能体协作(Multiagent Collaboration):通过多个智能体之间的合作来提高任务执行效率和准确性的方法。在这种模式中,多个智能体分担任务,并通过相互交流和协作,共同完成复杂任务。
2.大腦:从神经网络到LLM,作为大腦模型之一的深度学习
(1)大腦是已知宇宙中最复杂的设备,深度学习是仿生产物
小孩从零开始学习语言,没有人给他的大腦编程,但他却通过观察和经验慢慢自己学会了。大自然中的生物使用了一套与编程完全不同的复杂体系来解决问题,大腦中有很多神经元和连接,数百亿的神经元之间每时每刻的连接强度都不同,于是人类也尝试建立一个类似的系统,运用和人腦相似的原理来构建人工智能,这就是"神经网络",在传统方法以外的特殊的机器学习。深度学习是具有多层的神经网络,作为机器学习的一种,在近期人工智能演进中发挥了重大的作用。
深度学习只是大腦皮层的一个模型。从外部看大腦图片时,往往只能仅看到一个表面,但它内部是折叠的,有很多褶皱和波纹。大腦皮层下面的一切都非常重要,比如身体调控、社会融合、情绪控制、运动系统、心脏及所有的内脏调节,未来还亟待探索。
(2)大语言模型 LLM——先求其然,不求其所以然
LLMs是一种基于深度学习的AI模型,它们能够从大量的文本数据中学习和生成自然语言,例如GPT-4、BERT等。LLMs的核心是Transformer神经网络结构,它能够捕捉文本中的长距离依赖和复杂的语义关系。
所罗门诺夫归纳法是大语言模型的理论基础,在所罗门诺夫的框架里,知识的进步就是"递增学习"(incremental learning),所有的学习都可被看作是压缩,是用精简的系统概括大量数据的过程。大腦就是在给单词分配特征,并让特征互動。神经网络作为一个通用近似器(universal approximator),可以是实现所罗门诺夫归纳法的一个很好的候选机制。LLM将单词转换为特征,使这些特征相互作用,并从这些特征互動中预测下一个单词的特征,这些数百万个特征以及它们学习的特征之间数十亿次的互動,就是理解,这是大语言模型真正做的事情,它们是在用数据拟合一个模型,实现"下个词元预测"(Next Token Prediction)。、
所谓"有用"就是可以用来预测。正如何恺明在香港中文大学讲座中提到的,可解释性确实是个很好的属性,但同时我们也要意识到,我们当前系统的成功,主要是由经验证据驱动或验证的。
3.身体:具身智能革命
大腦主要负责慢思维与推理,是智力的核心所在;而小腦则关联着对事物的反应敏感程度,更多涉及身体的协调与运动的控制。深度学习暂时还没有涉及小腦,它是个复杂的运动控制器,对于调节进出大腦皮层而后进入周围区網域的信息非常重要。目前我们对模式识别底层机制的理解超过了我们对运动控制底层机制的理解。还没有一个机器人有人类身体这样的灵敏度和灵活性——这是个十分复杂的问题,涉及大量自由度。
AI让人形机器人拥有新的可能。 "具身智能"概念(Embodied Artificial Intelligence)诞生于1950年。在这一概念下,借助大模型,机器人感知、决策与互動提升,机器人赋予大模型现实的物理载体,具备了更强的自主学习能力和环境适应性,以及与真实世界进行互動和学习的潜力。
具身智能强调和追求机器人泛化及大规模应用。第一,它通过嵌入大模型互動,使机器人能够听懂语言,理解客户的指示,并让具身智能体到相应的地方进行操作。第二是结构化的固定环境加上感知垂直大模型,能识别并重建环节,拓宽机器人使用的环境,提高智能化水平。
目前仍有一些问题尚待解决:
(1)如何让机器人的大腦更聪明:现阶段机器人在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。目前,一些主流机器人大模型(PaLM-E、RT-1、RT-2、RoboCat、Voxposer等)已经能够在本体High level执行层面上表现出优秀的决策、任务拆解、任务规划、常识理解能力,但在数据的来源和low level的任务执行规划上仍有待提高。
(2)Scaling Laws(尺度定律)能否在机器人基础大模型中复现尚没有明确证据,验证大语言模型Scaling Laws所需的数据体量,在机器人领網域是极高的要求。
(3)具身智能大模型与硬體的融合、配合问题:人形机器人的整机结构复杂,仅零部件就超过5000个,从理解指令到执行任务,都是极大的工程量。具身智能的本体离不开感知系统、驱动系统、末端执行系统、能源供应系统、运算系统。一方面,其技术的本质是三维空间中的感知与运动,高性能的核心零部件是实现感知与运动的基础;另一方面,控制器、伺服电机和精密减速器所占成本(目前占成本 60-70%)需要进一步降低。好的产品需要平衡技术和成本,是一个工程化落地的能力体现。
(4)落地与应用:基于具体场景的融合打磨与迭代需要时间,目前效率与成本仍是问题。具身智能在结构、驱动、动力等真实能力方面,尚未实现根本性的突破。其中,行为智能成功成本,与"行为数据采样学习次数"乘以"每一次训练成功的成本"得到的结果相比,其比值仍然远远小于1。
4.生命:解译基因的巨量计算
人类对自身有限性的恐惧,自古以来都有不朽的愿望。一种是长生不老,一种是以碳基形式复刻大腦与行为方式,实现另一种意义的永生,人类一直不懈在做着超越有限性的尝试。
所有生命都使用相同的DNA编码,所有的基因在编码蛋白质时,都使用同一套密码系统来编码氨基酸;所有的生命都使用同一套"能量货币",叫作三磷酸腺苷ATP。从人类到变形虫,从蘑菇到细菌,只有少数病毒例外。生命本身被生物学家看作是一段大自然谱写的程式代码,生命的繁殖,发育和死亡都是被预先编码的程式代码。随着人类掌握了基因测序技术和基因编辑技术,人类开始破解和改写生命的程式。但是由于人类对生命程式的破译还处于初级阶段,不能准确理解和预测不同基因,蛋白的效果是当前研发效率低下最本质的原因。
随着人工智能和生物学两个领網域各自取得蓬勃发展,两者的交汇也让产业充满兴奋和期待——在大规模的生物学数据面前,机器学习技术能够帮助人类破译生命的程式,发现疾病的机制,拥有工程改造生命的能力。
(1)人类基因组计划推动了基因测序行业最先落地
"人类基因组计划"带动了基因测序行业的快速发展,直接促成了2005年NGS二代测序技术和第三代测序技术的发明,将单人基因组测序成本下降1万倍,从此人类开始获取海量的基因组数据和基础医学的大范围突破。
AI与生命数据的结合除了DNA, 还表现在对蛋白质数据的理解。2021年,deepmind首次通过AI深度学习训练了蛋白结构预测模型 AlphaFold2并打破蛋白结构预测领網域的精度记录, 随后在2023年进一步预测并开源了地球上100万物种共超2亿蛋白质结构,蛋白质作为生命活动的基石,其相关研究对药物研发、疾病攻克、食品工程、农业、工业等领網域都有重要影响,2024 年,更新版蛋白结构及互動作用预测模型——AlphaFold3 问世,继续将预测范围扩展到蛋白质、DNA、RNA以及一系列配体、离子和化学修饰等更多生物分子结构,展示了用统一的深度学习架构,来建模复杂生命系统组件之间相互作用的可能性,成为"人类了解生物学动态系统历史性的第一步"( Demis Hassabis,DeepMind CEO)。
(2)基因编辑工具开启了可编程药物时代
在2013年,科学家发明了CRISPR基因编辑技术,就赋予科学家这种空前精准的基因编辑能力。被称为操控基因组的"分子手术刀", 也开起了可编程药物的时代。可编程药物是指一类生物学的基本元件(DNA或RNA)的药物,相比于过去的依赖筛选的小分子药物,更加依赖理性设计。
展望未来,这或许也预示着生物医药产业的新药发现模式,将从比拼成功概率的数字游戏,变成更为精准的理性设计。mRNA疫苗就是一个典型的例子。
(3)以合成生物学为代表的生物经济全面崛起
过去十年间,合成生物学产业上游有关基因测序、基因编辑和基因合成的使能技术的突破,推动了合成生物学新一波的产业浪潮,同时也积累了大量数据,为发展理性设计提供了可行性,生成式算法的发展也让从头全新设计成为可能,合成生物学拥抱各类人工智能已经成为必然趋势。 AI+合成生物代谢工程,就是利用机器学习引导的高通量代谢功能成本更低、耗时更少,较传统方法能提高产率,发现样本空间中的全局最优解,可以大大提高研发效率。
在生命科学不同尺度上,一场轰轰烈烈的编解码工程正在有序展开,例如,在基因组层面的各种基因检测服务和基因疗法,在蛋白质组学层面设计的各种人造蛋白质和抗体,在细胞层面的各类CAR-T免疫细胞疗法和干细胞疗法。在组织器官层面,器官再生让人体4S店的构想也初见曙光,腦科学计划的发展也将帮助人类更好的开发腦机接口,并且让腦腦接口成为可能,甚至让腦腦接口成为可能。未来,高度发展的生物科技终将消灭疾病,进而实现人类的终极梦想:寿命的延长,同时合成生物技术将帮助化工产业实现绿色低碳更新。
四、生成未来:模型吃掉世界,智能体成为生产力
1.生成式AI带来生产主体和价值分配革命
数十年来,代码构成的軟體生态极大改变了世界的形态,代码组成的軟體作为生产力工具,让人类在各类工作的完成效率大幅提升。但个体产出的效率上限始终受到人类处理信息的带宽上限制约,同时受制于培养一个相对成熟工作个体的成本。这些问题都不是单纯的軟體效率工具能够解决的。
对比互联网时代,网络基础设施的构建提供了最高效的信息传播渠道,因此,互联网重新定义了所有与信息传递和传播渠道相关的商业形态。在传统商业形态中,加入比特降低信息传递的成本,新的商业模式得以成立,譬如:电商、社交、内容消费等等。
未来较长一段时间内,以模型为代表的计算新形态将提供最高效的有限智力生成成本,因此模型有望重塑所有与人工创作和智力决策的业态。在已有的业务形式中,加入词元生成,更多复杂的劳动形式被算力替代。
不同于軟體作为生产力工具的形态,大模型的出现变革性地改变了軟體生态过往三十余年的商业价值属性。大模型本身具有生产力属性。模型自身就在处理信息并给出对应的答案,这些工作可以在当前替代低阶要求的人类工作,直接作为生产力环节上的一环。模型在商业决策、招聘人选判断、新药发现、美术作品交付、视频内容生产等多个流程,直接表现出了替代人工的生产力属性。在这些垂直领網域中,用户得到的商业产品价值中,颠覆性地不再存在人工成本支出,或者说这一支出在迅速收窄。
昂贵的腦力劳动产物,正在出现重新定价的可能性。模型正在成为生产力。电力、算力是模型作为生产力工具的少数成本,当模型的智慧能力表现出更高的问题解决能力,我们将看到诸多商业形态因此发生改变,垂直行业的智力获取成本大幅降低。
如果说计算的第一个时代是 PC 时代,计算的第二个时代是互联网时代,计算的第三个时代就是 AI 时代。在每一个时代中,都有一个核心的技术突破和一个核心的经济模式。在 PC 时代,技术突破是個人電腦,经济模式是軟體许可证。在互联网时代,技术突破是互联网,经济模式是广告和订阅。在 AI 时代,技术突破是生成式 AI 和 LLM,生成式 AI 作为一种新的经济模式,它将创造的智力成本几乎降低到零。同时,生成式 AI 也是开放多元去中心化的,任何人都可以访问和使用,这意味着任何人都可以用 AI 来创造出高质量的内容,比如文本、影像、视频、音乐等。这将极大地提高人类的创造力和效率。同时,这也将改变内容的价值和分配。因此,生成式 AI 将带来一场生产主体和价值分配的革命。
2.生活形态革新 ——智能即服务
能源、算力、模型、应用是一个完整的智力产品。我们生活当中大部分任务和劳动都可以被这样的智力产品来度量。这里的应用可以是軟體工具,也可以是硬體机器人。提供优质数据来赚取智力货币,在服务中消耗智力货币。
在工作领網域,认知成本和创作成本将不再与人力成本密切相关,虚拟专家员工,编程、商业策划、工程都可以直接链接到顶级的智力资源,永不停歇、收费极低、商业形态更加丰富。我们将能依赖各种各样的顶级专家模型,完成高质量的生活、工作决策,降低我们认知的成本和决策的错误率。与此同时,我们也可在自己最擅长的领網域,贡献出优质的数据集,自己的智慧以数据的形式被汇集到专家模型和应用的架构当中。
在生活场景,与机器人结合的具身智能产品将出现在诸多高柔性的服务场景,个人生活的AI助理会带来更全面的数字化服务。在未来,人们可能拥有一组个人AI团队,这些AI在我们的日常生活中扮演各种角色,使用生成模型的产品并不是依赖单一的大模型,而是多模型系统的协同作用。类似于公司服务于客户的方式。对于复杂的问题,这些AI团队可能需要联系云端的更大模型来求助。
3.互動界面更新 ——从理解到互动调配
智能的生产力革命可能带来新的人机互動方式,过去基于触屏的互動设计可能转变为基于AI Agent对话的操作方式。从传统流量入口的概念来看,不同的Agent可能成为不同垂直领網域解决问题的主要視窗,Agent不应当只具有传统应用的操作功能,而是有能力在各个垂直领網域重新调配生产资料和生产力,更深度地耦合供给侧与需求侧。
我们正处于推理能力和互動界面双重转型的中心,将来的设备将不再是简单的信息记录工具,而是成为一种能够全面理解用户意图和环境的智能系统。这种系统不仅要能捕捉到视觉和听觉信息,还要能够无缝地整合这些信息,以支持更加自然和高效的用户互動。空间计算将成为继桌面计算、移动计算之后的下一代计算平台。从 PC电腦的滑鼠、键盘的操控互動向智能手机应用的触控互動,到未来集文本、语音和视觉于一体的AI伙伴,能够实现实时理解世界并与之互动。理想的计算界面正在不断演进,将数字信息和内容无缝地融入到用户的物理空间中,提供更加沉浸式和互動式的体验。
五、超级智能尚未到来,当下机会与路径
1. 大模型≠好产品:从沙滩到用户,从阳光到智能
"能源+算力+模型"是标准化的智力服务产品,就像"原料+烹饪+配送"是标准化的外卖服务品。标准化的智能产品,离不开强有力的模型,但并不意味着模型是最终AI世界的全部。
模型智能水平的马太效应,决定着未来模型厂商的价值占比。OpenAI希望看到自己一家独大,模型的智能水平远超其他竞争对手,因此为了更高的智能程度,各类服务商只能依托于唯一一家的模型服务。这种生态一旦形成,则会给模型公司带来高额的利润空间,但这种一家独大的智能化程度是否真的存在,且短期内难以被其他公司跟进,在当前的模型竞争中看到的更多是你追我赶的齐头并进。
如果上述模型的马太效应并不成立,模型厂商的竞争格局则可能更接近云服务厂商的形态。
从Scaling Law到优秀产品的路也在探索中。Open AI相信Scaling Law,在持续不断扩充模型体量和训练集大小,我们不断看到更加智慧的模型作为其迭代的新产品。尺度模型在不断更新着模型的智能水平,但真正能够有适合用户使用的AI产品可能并不完全取决于智能程度。没有从模型的第一性原理回到产品的第一性原理,可能很难看到互联网时代的大规模使用产品。OpenAI正在启动ChatGPT的搜索引擎版本,这也可以看作模型能力正在被尝试装进一个优秀的产品框架。
2.超级模型基础设施:算力,能源
正如Sam Altman所言,如果"智能"足够便宜,我会让AI帮我阅读每一封邮件并给出建议。但如果"智能"非常昂贵,我们可能只会用AI来治疗癌症。最好的技术都是"隐形"的,而只有成本的下降,才能使得"智能"在未来像空气一样随处可得,嵌入到我们工作生活的每个角落。算力和电力这一组合的供需关系,将会构成计算作为一种商品的实时价格依据。
(1)算力
数据与计算是 AI 的核心资源,它们共同构成了 AI 的基础设施。模型的成本是 AI 的重要限制,它影响了 AI 的可用性和可持续性。在数字化表达世界模型的过程中,算力是推动创新和产生新价值的关键因素。它能够处理庞大的数据集、开发复杂的智能算法,从而孵化出新的商业模式和经济增长点。由于算力的价值属性、通用性和稀缺性,算力作为一种新型的生产力,逐渐展现出其货币属性。
按照当前的模型参数体量估计,我们需要更多的算力设施来保障超级模型的训练、推理,以确保这种智能作为一种廉价易得的生产要素,可以被广泛应用在不同行业当中。这种算力设施既可能沿着当前的GPU架构演进,在摩尔定律的约束下达到极限,也有可能在未来几年出现新的硬體架构方式,为我们降低算力成本而服务。
(2)能源
能源成本也是制约AI大规模应用的因素之一,ChatGPT当前的耗电量相当于美国1.7万个家庭的总和,而当前GPT所服务的群体、处理的任务维度还远低于超级模型的极限。廉价易得的能源仍然是人类迈向更高生产力层次的必要条件,关于能源革命的故事仍然会贯穿于智能化更新的前进路线中。
事实上,中美电力费用的差距正在影响中美大模型Token定价策略。模型推理的优化相对训练更加容易、推理的算力要求不高、电力成本中国远低于美国,这三点推理成本的差异使大模型的价格竞争在中国市场成为可能,而不是发生在美国。如果单个token的计算是算力货币的基础形式,这种算力货币的定价显然仍存在"中美汇差"。
3.当下应用场景: 平衡模型能力和场景需求
AI 的发展是一个驱动力和反馈力之间的循环过程。驱动力是指 AI 的需求和潜力,它促使我们不断地提高 AI 的性能和功能。反馈力是指 AI 的效果和价值,它促使我们不断地增加 AI 的使用和应用。
新的应用,不一定要等到人工智能(AGI)的出现,现在已经能看到人工智能应用采用的开端。比如人工智能的基础模型(如大型语言模型)可以降低创造的边际成本,从而催生出新的行为和应用。
AI 的早期应用场景至关重要,某种程度上决定了 AI 的发展和创新。AI 的早期应用场景通常面临着一个重要的问题,就是如何在创造力和正确性之间取舍。创造力是指 AI 能够生成出新颖和有趣的内容,正确性是指 AI 能够生成出准确和合理的内容。创造力和正确性之间的取舍取决于应用场景的目标和风险。如果应用场景的目标是为了娱乐或探索,那么创造力可能更重要。如果应用场景的目标是为了解决或改善,那么正确性可能更重要。如果应用场景的风险是较低或可控的,那么创造力可能更可接受,因为它可以提供更多的尝试和机会。如果应用场景的风险是较高或不可控的,那么正确性可能更必要,因为它可以提供更多的保障和安全。目前九合重点关注当下能够利用好生成式AI能力,拓展创造边界的应用场景,如美术,游戏,视频生成,情感陪伴等领網域。
附录:九合"计算+"代表被投企业
一流科技
一流科技创立于2017年1月,始终立足于通用性深度学习标准框架的研发和推广使用,力争成为人工智能深度学习框架产品的引领者和事实工业标准。一流科技研发的分布式深度学习框架 OneFlow,首创了自动数据模型混合并行、静态调度、去中心化和全链路异步流式执行四大核心技术,彻底解决了大数据、大模型、大计算所带来的异构集群分布式扩展挑战,技术水平世界领先。九合创投作为第一轮投资人,在2017年投资了一流科技。
彩云科技
彩云科技业务涵盖天气预报、机器翻译和智能写作,持续致力于发展具有高阶认知能力的人工智能,提升人类感知环境、相互交流和与AI沟通的能力,并将之赋予全球用户和开发者。公司基于大规模语言模型自主研发了AI创作工具"彩云小梦",AI续写的同时极大程度保留作者的创作空间,在中英文的语言逻辑和内容质量上都获得了海内外用户和算法评估的高度赞誉。
心影随形
AI 情感陪伴是一个公认具有想象力的 Killer APP 方向。心影随形选择从游戏陪伴和年轻人群切入,推出「逗逗游戏伙伴」。游戏是一个情绪浓度很高的半封闭情景,用户情感抒发和获得回应的需求未被满足,是 AI 情感陪伴的最佳切口。「逗逗游戏伙伴」获得用户授权的螢幕内容,用语言模型和CV理解内容,实现物理和心灵同频。
赋之科技
赋之科技团队成员在机器人行业深耕多年,拥有丰富的消费级机器人产品开发设计和产品化经验,行业资源深厚。公司目前约75%为研发人员,在售的Enabot品牌产品远销海内外160多个国家和地区,全球用户超过50万,每日服务万千家庭。公司坚持用户第一,追求极致,以"做有温度的科技企业,服务千万家庭"为愿景,致力于通过先进的机器人技术和产品帮助家庭管理,促进家人沟通,提升家庭幸福感。
行者AI
行者AI是国家高新技术企业,拥有60余项发明专利、20余项軟體著作权和SCI论文。秉承以AI技术赋能智慧文娱、智慧教育行业的愿景,凭借核心团队10年以上研发实力和行业经验,推出行者AI数字文娱垂类大模型、AI+美术、AI+音乐、AI+智能体、AI+安全等产品与解决方案。产品已在文娱、教育、政务等场景应用,典型客户包括掌趣科技、米哈游、盛大游戏、360游戏、自贡文旅、成都博物馆、四川省广电、上海交大、成都七中、元气森林等。
CreativeFitting
CreativeFitting(井英科技)位居国内AI视频模型行业的前沿,创始人为美国上市连续成功创业者,拥有十余年互联网内容型产品运营和增长的经验,从0到1成功构建并运营过千万级内容平台。CreativeFitting致力于自研AI视频模型生成高质量内容,从生成广告短视频到AI短剧,生成视频的质量都达到行业领先级效果。2024年1月,公司发布了全球首款AI短剧应用,用户观看视频时,还可以与剧中人物进行聊天互动,为用户开启了全新的想象力领網域。
Noetix Robotics
Noetix Robotics 是一家专注于人形机器人研发与制造的科技公司,于2023年9月成立于北京。公司核心创始人员来自于清华大学与中科院等多所知名院校。公司致力于通用人工智能本体、机器人仿生,以及具身作業系統等多个方向的研发,实现高力矩密度、高动态响应、高精度力控等特点。目前公司主要专注于下一代智能家庭人形机器人终端研发、生产与制造,聚焦于To B、To C端家庭、教育、养老等应用场景。
徕福机器人
徕福机器人成立于2023年,致力于成为全球领先的智能家庭服务机器人、定义未来家庭的智能生活新方式。徕福的技术聚焦于超强运动性能的轮足底盘,能够上下楼梯、步态展示。首款产品主打3-12岁的儿童陪伴与家庭陪护,型态为多模态类人互動机器人,具备数字孪生监护、教育娱乐与生命日志等多种功能。
尧唐生物
尧唐生物是国内罕见的同时拥有工业级LNP能力和碱基编辑器原研能力的团队,目前公司首个体内基因编辑药物管线已经完成毒理药理研究,大动物试验结果已初步显示了YOLT-201的安全性和有效性,单次给药的体内编辑效率做到了同类最优,具备best-in-class的潜力。尧唐生物已经于近期向国家药监局递交了YOLT-201的IND申报檔案,有望开启中国首个基于mRNA-LNP递送的体内基因编辑药物的注册临床试验。
诺视科技
诺视科技致力于研发商业化Micro-LED显示芯片技术,在微显示领網域为客户提供最佳解决方案,拥有国内首个深度融合集成电路制造工艺和Micro-LED芯片工艺的团队,公司以VSP技术突破微显示领網域像素难以小型化的物理限制,打造高性能的微显示芯片,以IDM模式从产品设计、研发、生产制造,到封装测试实现完全自主可控。该技术方案不仅在芯片小型化、高亮度、低功耗方面有着极佳的表现,而且具有极高的量产可行性,有望成为Micro-LED产业化的终极方案。
一九象限
一九象限聚焦下一代移动计算平台AR芯片及解决方案开发和交付。产品覆盖不同档位的AR/MR应用场景,弥补XR领網域一体化高集成SoC短缺的空白。团队全部来自国内顶级半导体设计公司,在行业持续近20年积累,具备丰富的从需求到量产全流程的先进半导体技术研发和量产交付能力。公司聚焦未来产品需求,通过多领網域底层核心技术的自研突破,持续提升芯片及解决方案竞争力,帮助行业整机客户快速提升产品竞争力,成就客户商业成功。
中科昊芯
中科昊芯是数字信号处理器领先企业,作为中国科学院科技成果转化企业,公司在全球范围内开创性的使用 RISC-V指令集进行数字信号处理器 DSP 的设计研发,解决了国内 DSP市场困扰多年的应用生态和知识产权难题。公司率先量产全球首款RISC-V DSP并推出 HX2000系列数字信号处理器产品,可广泛应用于工业控制及电机驱动、光伏及储能、新能源汽车、数字电源、消费电子、白色家电等众多领網域,该系列十余款芯片已流片,多款型号实现量产并批量供货数百万片。
微核芯
微核芯从事RISC-V高性能处理器芯片的研发和销售,核心技术覆盖高性能处理器芯片的系统架构设计、物理设计、先进工艺、基础軟體等主要领網域,是当前国内少有的具备伺服器级高性能RISC-V处理器完整研发能力的企业,已与多家互联网头部企业在数据中心伺服器领網域开展正式的商业合作。公司创始人是中科院计算所龙芯团队的核心创始成员,在高性能处理器领網域拥有超过20年研发、量产和市场推广经验。
芯算科技
芯算科技成立于2023年9月,是国内外光子计算领军者,致力于打造下一代更快更强的新型智能计算基础设施。全球首创高维光学神经网络架构,核心技术绝对自主可控,以光子计算为抓手,推进光计算和光通信的有效融合,做全面自主的光芯片。公司的一代产品预计于24年Q3发布,拥有光计算行业最强的性能指标,贯穿全场景AI智能计算应用。