今天小编分享的教育经验:周鸿祎:未来属于正确使用大模型的人,欢迎阅读。
The following article is from 复旦商业知识 Author 周鸿祎
作 者 | 周鸿祎 360 公司创始人,董事长兼首席执行官
来 源 | 复旦商业知识,管理智慧(guanlizhihui)
如今,人工智能已不再是科幻电影中的幻想,而成为现实生活中不可或缺的一部分。随着技术的迅猛发展,大模型作为人工智能的一项核心技术正逐渐引领着创新的潮流。作为一家知名的科技企业,360 公司深刻洞察到了大模型在企业级市场中的巨大潜力,其创始人周鸿祎对此也有自己独特的见解。
周鸿祎观点:
• GPT 不是搜索引擎,也不是聊天机器人,它代表着超级人工智能时代的到来。
• 出现 " 幻觉 " 恰恰是大模型智能的体现,也是它最 " 可怕 " 的地方。
• 有批判精神、有想象力、会提问,是人工智能时代人才的关键特质。
• 大模型未来将 " 无处不在 ",大模型的趋势是做 " 小 " 做 " 专 "。
• 大模型的发展要顺势而为,服务产业数字化战略,提升政府和企业的生产力和生产效率。
大力出奇迹:
大模型训练的 " 暴力美学 "
在 OpenAI 之前,所有公司都点错了 " 科技树 ",没想过用 " 大力出奇迹 " 的方式训练大语言模型。
这次的人工智能和过去的不太一样。原来的人工智能就像是 " 人工智障 ",大家也体验过,像 Siri、智能音箱、网联汽车里的语音助理,可以说几句简单的指令,复杂的理解不了。所以很多人会有质疑:这样的人工智能是真的智能吗?我觉得这是认知上的问题。如果你认为它是假的,可能会忽视它;如果你认为是真的,就会认真思考。那么,我们该怎样把握这种趋势?
这次大语言模型用到的算法和模型并不是 Open AI 发明的,而是谷歌发明的。原来这些 Transformer 模型①,包括国内的互联网公司,我们都在用。OpenAI 就做对了一件事——大力出奇迹。全世界只有他们这么一伙人,想到了把所有的知识放在一个大模型里训练,在这之前,没有人敢于这么去想。
OpenAI 成功地在关键时刻做出了突破,这个过程是怎么发生的呢?
首先,是模型的选择,就像挑选一个空白的大腦,或者可以类比成一个刚刚开始学习的小孩子。
其次,是无监督学习,你可以将其理解为让一个小孩子不断阅读书籍,读上万本,甚至十万本书。这一步非常关键,我们要将所有可以找到的知识注入模型中。在这个过程中,与传统的方式不同,我们不再需要大量的标注数据。比如做人脸识别或者程式识别,你需要准备大量的数据和标注。然而,通用大模型的特点是它不需要这样的标注,它能够自主学习,像是一个 " 读书百遍,其义自见 " 的阅读过程。当我们将人类所有的书籍注入其中后,这些知识会相互映照,降低学习的难度。
再次,是有监督的微调,它背后的含义是什么呢?打个比方,你可能把自己的孩子送去奥数班,孩子需要通过做题来学习。类似地,我们可以将人工标注的例题、问题和答案训练给模型,培养它举一反三的能力。这个数量并不需要太多,模型要求能够理解并解决类似的问题,就像做了 10 遍鸡兔同笼的问题,以后它再碰上类似的问题便都会做了。
大模型并不是问题,预训练数据才是。因为相对于全球其他语言,中文的数据量较少②。从次,是 " 价值观对齐 "。虽然我们训练出的大模型具有强大的能力,但它可能会表现出不当的言辞,包括黄色内容和暴力言论。无论是在中国还是在美国,这都会受到限制,如不能有种族歧视的言论,不能违反法律。因此,我们采取了一种方法,通过人类提供的价值观标准,让模型回答一些例题,从而教导模型如何正确回答问题,这就是价值观对齐。
然而,价值观对齐也带来了一些问题,争议不断。因为这可能使模型变得愚蠢,受到很多限制。尽管如此,这是我们肩负的责任和探索的方向。
最后,作为一个产品,模型需要发布到互联网上,通过大量用户的使用来获得反馈,并不断进行调整。大数据加上大算力、大标注、大算法、大流量才变成了大模型。ChatGPT 为什么能够出圈?OpenAI 不仅在技术上解决得很好,在如下两件事上也做得很漂亮:一是他们把它包装成了聊天机器人。" 伪装 " 成聊天机器人的 SaaS(軟體即服务),用户会聊天就会使用,这让普通人和人工智能的距离为 " 零 "。但它不是聊天机器人,这一点一定要强调。二是找对场景,解决老百姓的痛点和刚需。再伟大的技术创新,都需要场景支撑来解决实用问题。过去的 AI 产品都是技术专家们的 " 自嗨 ",普通老百姓没有感觉到,但这次 OpenAI 的概念影响到了全世界几十亿人,这也是非常值得我们去学习的。
① Transformer 模型,是谷歌在 2017 年推出的自然语言处理(NLP)经典模型。
②来自维基百科的信息显示 , 截至 2020 年 3 月 25 日 ,W3Techs 预测前 100 万互联网网站使用的语言文字百分比中 , 英语占比为 59.3%, 而中文不过 1.3%。
这次不是 " 狼来了 ":
大模型已经拥有智能
大模型到底有没有智能?图灵测试的本质就是拟人对话的实验,当机器能够完成与人类的自然对话,就意味着拥有人类的智慧。
在这之前,计算机的数据库和搜索都是信息的存储和检索。但 OpenAI 是人类第一次实现把知识、理解编码,基于知识能做推理、做规划。微软和 OpenAI 合作之前,大家都觉得他们做的会不会只是一个新的搜索引擎?你问它上一届世界杯的冠军是谁?这种问题根本不体现智能性,因为事实性答案用搜索就能得到。" 小张把沙发装到箱子里装不下,它太大了,它是谁?" 这是经典的逻辑学和语言学问题,如果没有对人类世界知识的理解,仅靠语法分析是分析不出来的。GPT 有一个最基本的点,就是无论你怎么跟它聊天,它一定能坚持聊下去。你不会觉得它是一个机器人,有时候它说话的 " 油滑劲 " 简直就像一个世故的中年人,当然这都是公司给训练出来的。
人和动物最大也最本质的差别是人类发明了语言来描述这个世界的知识。你对这个世界的很多知识不是先验的,是通过对语言的学习得来的。谁能真正理解语言,就建立了对世界模型的理解,ChatGPT 使人类第一次做到这一点。
尽管今天一个新生事物有很多缺点,这些缺点只要不是致命的问题,未来可以通过迭代更新、自我演化来更新。它代表了新的时代的开始。大家不能错过这个机会,这次不是 " 狼来了 "。你相信它,可能就会在企业数字化战略里用它,而不是把它当成玩具。
四个不可解释的现象:
人类打开了 " 潘多拉魔盒 "?
第一是涌现。大模型有一个参数规模,大家都会问做了模型,参数是多少?有人说 100 亿、1000 亿,还有人说未来做 1 万亿。那么,参数该怎么理解?把它想象成人大腦里神经元和神经元的连接,与内存、硬碟是线性存储不同,人的大腦是非线性存储。人腦的联想由神经元存储信息,这些信息之间充满了无数连接,所以参数可被比喻成模拟了大腦皮层神经元的 " 连接数 "。原来没有推理能力,连接数过了六七十亿之后开始产生一定的能力,过了五六百亿之后,能力突然增强。就像生物进化,地球本来没有生物的环境,后来从单细胞演变成今天复杂的生物圈。但是直到目前科学家还无法完全解释,这就叫 " 涌现 "。
第二是幻觉。很多人担忧 GPT 会产生幻觉,当它不知道怎么回答的时候,居然会 " 一本正经地胡说八道 "。比如,你问它 " 贾宝玉如何倒拔垂杨柳 ",它真能给你编一段出来。但是换个角度看,这不恰恰是智力的表现吗?出现 " 幻觉 " 恰恰是大模型智能的体现,也是它最 " 可怕 " 的地方。
《人类简史》里提到,人类进化过程中和大猩猩有一个很大的分水岭。大猩猩可以学会认五个香蕉、三个苹果,也可以接受简单的指令,但它永远无法理解不能发生的事。人类进化的一个关键点就是人类是唯一有能力产生幻觉的动物,能描绘不存在的事。人类也会说谎。创造力是什么?创造力就是创新,把几个不相关的概念,扭到一起产生链接、产生创造。搜索引擎再强大,也只能搜出已经存在的东西,有就是有,没有就是没有。今天,大模型的创造力已经在不断涌现。
第三是语言能力迁移。OpenAI 的训练语料里,中文占比可能不到 5%,其他语言的比例高达 95%。我们曾经以为阿拉伯文、日文、中文、拉丁文字的规律是不一样的,但是他们发现训练到一定时候,所有语言背后的规律都发生了作用。例如,在英文中学到的知识能力,在其他语言上都能很好地回答。所以,OpenAI 虽然只有 5% 的语料是中文,但它的中文能力还是相当强。
第四是逻辑增强。计算机语言也是一种形式化的符号表达。为了训练编程能力,研发人员给它读了很多源代码,然后发现它不仅学会了编程,在用自然语言回答问题的时候,逻辑感、层次感也得到了极大增强。这几个现象证明了这次人类可能确实打开了 " 潘多拉魔盒 ",也可能实现了真正的突破。
开启超级人工智能时代:
大模型把 " 石油 " 变成 " 电 "
大模型对传统人工智能而言是一场颠覆性的革命。
GPT3.5 是一个拐点,是人工智能走向通用人工智能的拐点。GPT4 是超级人工智能的雏形,它已经是世界上最聪明的 " 人 "。很多人对 GPT4 的用法不对,仅把它当聊天机器人 " 玩 "。
大模型是通用人工智能,可以用一套模型、算法、数据解决所有自然语言理解的问题。大模型从感知进化到了认知,能够理解文字、语言、分析、规划,会成为未来很多新的人工智能底座。任何人工智能问题首先要基于大模型,因为大模型基于对世界的理解。大模型将在自动驾驶、机器人控制、蛋白质计算等领網域大显身手。
一定要站在未来看现在,站在现在看未来。GPT 不是媒体,不是玩具,不是搜索引擎,也不是聊天机器人,它代表着超级人工智能时代的到来。
现在已经有很多科学家在讨论,当人类已有的书本知识训练完了,我们用什么来训练这个超级大腦?答案可能是全世界的摄像头。对它来说,识别视频已经不是问题;可以想象一下,通过这种学习它的进化速度会有多快。
未来属于会正确使用大模型的人。GPT 是这个时代最伟大的工具,凝聚全人类的知识成果。它赋予普通人更强大的能力,解锁专业技能,发挥聪明才智。
年轻人有机会借助 GPT 拉近和前辈的距离。有批判精神、有想象力、会提问,是人工智能时代人才的关键特质。人工智能发展的终极目标是人机协作。
大模型目前的工具属性非常强,把人类几千年的知识浓缩在一个模型里,通过一个聊天接口,让每个人都能拥有。我觉得在企业里要采用大模型,首先能提高组织效率,提高员工能力,特别是新员工的培训入职。它还能解锁人的很多能力。目前大模型还有很多不完美的地方,让它独立完成一项复杂工作基本上没有可能。它给企业做战略规划的时候,还得加上人的判断。大数据不是数字化的终点。大数据有点像石油,虽然很宝贵,但是不能直接用。因为你不能直接把石油灌到油箱里,大模型正好解决了这个问题,就是把大数据训成大模型,就像把石油变成了电一样。
一旦变成了电,就可以提供很多通用的能力,注入企业。大模型不是作業系統,而是数字化系统的标配。大模型未来将 " 无处不在 ",大模型在中国的发展之路不会走向垄断,而是与计算机类似。大模型的趋势是做 " 小 " 做 " 专 ",在电腦和手机上跑起来,每一台智能汽车上也会有大模型。未来,每个家庭、企业、政府部门都会有至少一个大模型。
企业级场景落地:
先干起来再说
大模型抽成两个市场。一是巨头把持的存量市场,二是行业企业开创的增量市场。
真正的增量在于企业级市场,特别是传统行业。传统行业都在做数字化转型,而大模型和云计算不太一样。有一定规模的企业不会选择接入云端通用的大模型,而是会把大模型变成自己的核心数字资产。
大模型发展要顺势而为,服务产业数字化战略。
大模型在中国应该高举一面旗帜,即为传统产业赋能。大模型应该 " 放低身段 ",去提升政府和企业的生产力和生产效率,要随企业走到各个场景中,跟企业实践结合。
公有大模型的企业级场景落地会面临如下七个问题:
(1)缺乏行业深度。当企业需要深入的行业知识时,通用大模型可能无法满足。大模型像万金油,但在复杂的行业问题上可能回答不了。它无法提供深刻的管理见解。
(2)不 " 懂 " 企业。大模型未与企业内部打通,因此无法真正理解企业的内部情况。
(3)数据安全隐患。大模型在训练和应用时需要大量的数据,将核心数据输入模型,特别是在公有模型中,可能导致数据泄露和滥用风险的出现。
(4)核心资产难以保护。企业都拥有自己的核心知识,不愿意将其贡献给通用大模型。它们更希望自主训练、更新模型。
(5)幻觉和知识模糊。大模型可能出现虚假信息和不准确的知识。在某些领網域,这可能带来致命的后果。比如,有人做出了一个医学大模型,把所有的中医、西医的知识都训练进去了,大模型随后 " 认真 " 地开了药方,谁来验证这个药方的正确性呢?
(6)投入巨大。大模型的训练成本高昂,这使得企业对投入产出比产生顾虑。
(7)无法保证所有权。企业在使用大模型时,与核心数据、核心资产紧密结合,因此需要确保自己拥有模型的所有权和控制权。
为了解决这些问题,大模型未来的发展趋势是 " 六个垂直化 ":
(1)行业深度化。企业可开发行业深度模型,与通用模型不同,这些模型会更加专注于特定行业的知识和问题。
(2)企业个性化。大模型需要与企业内部的技术、商业秘密、核心知识融合,以实现个性化应用。
(3)能力专业化。企业内部可能需要多个专业模型,而非通用模型,以满足不同领網域的需求。
(4)规模小型化。针对企业的专用模型可以采用较小规模的参数,降低成本并提高响应速度。
(5)部署分布化。大模型可以同时部署在云端和终端,提供更灵活的应用场景。
(6)所有权私有化。企业需要拥有和控制自己的大模型,以确保数据和资产的安全。
大模型要完成从 " 天才 " 到 " 管培生 " 的转变。垂直模型也要在经过市场验证、有足够能力的通用大模型基础上训练。在互联网上先把一个通用的大模型基座训练出来,相当于达到大學生水平,然后再落实到企业内部,效果就会好很多。
构建企业级垂直大模型的难度比通用大模型低了很多,不要等到大模型无所不能才开始干,想清楚场景,现在就可以开始干了!
坚持安全发展 " 四原则 ":
AI 普惠为人赋能
只有解决安全问题,大模型才能得到真正发展。
谁能解决大模型 " 幻觉 " 问题,就相当于摘下了 " 皇冠上的明珠 "。
第一,安全可靠原则:所有大模型都有漏洞,包括网络安全方面的大模型窃取 ;数字安全方面的数据隐私攻击、投毒攻击 ;算法安全方面的提示注入攻击、逃逸攻击。
第二,内容向善原则:AI 要不作恶,不违背人类伦理道德,生成内容要安全,例如要解决 AI 换脸诈骗、生成恶意軟體、网络钓鱼问题等。
第三,结果可信原则:通过搜索校正、知识校正、对齐训练,解决 " 幻觉 " 知识模糊、知识不能及时更新问题。
第四,能力可控原则:不要一开始就把控制权交给大模型 ;要确保 " 人 " 在决策回路;不能出现 " 不可撤销 " 的后果。
当你做了一个大模型让人人都能用时,无数人会想出很多方法让这个大模型犯错,这里有特别多的安全问题,而做垂直大模型是最安全的。我们也在研究用大模型来 " 治 " 大模型,也就是把大模型的某些能力关在笼子里。
大模型不是万能的,它目前最成熟的能力是自然语言处理,其实就做两件事:知识问答和写作辅助。先把通用大模型最擅长、最成熟的能力用好,从办公场景的 " 刚需 " 切入,做到 " 小切口、大纵深 ",从大模型最能提升企业办公效率的点切入。循序渐进,先让大模型担当 " 副驾驶 " 角色,大模型可以导航、给建议,不会乱抢 " 方向盘 "。
大模型发展要 " 以人为本 ",坚持 AI 普惠的概念。
从上到下每个人都用起来,企业对 AI 的理解才会更深入。大模型作为生产力工具,应当为人赋能,而不是为了裁员。
大家对大模型要建立一个认知,你可以不用,但这件事不是虚假的风口或者泡沫,而是人工智能的发展到了拐点。未来 5-10 年会有一场产业革命,开发通用大模型并不是唯一之路,做产业大模型生逢其时,应该会有先发优势,让我们拭目以待。
END
本周直播预告: