今天小编分享的互联网经验:欢迎来到提示词的美丽新世界,欢迎阅读。
图片来源 @视觉中国
钛媒体注:本文来源于微信公众号创业邦(ID:ichuangyebang),作者 | 王艺,编辑丨海腰,钛媒体经授权发布。
与大模型一同诞生的提示词(Prompt)已成为 AI 领網域绕不开的概念。
Sam Altman 在与领英联合创始人 Reid Hoffman 对谈时表示,五年后我们将不再需要提示词工程(Prompt Engineering),或者只需在这方面做少量工作;将来的 AI 系统不会因为增补了某个特定词就产生截然不同的输出,而是可以较好地理解自然语言。用户只需以文本和语音形式输入指令,就可以让计算机完成影像生成、资料研究、心理咨询等复杂任务。
Sam Altman 的表态让外界普遍认为其不看好提示词的前景。
但 Sam Altman 的不看好,针对的是提示词工程,而不是提示词本身。
在大模型愈发完善,愈发成熟的未来,以提示词工程的形式,让大模型更好的理解自然语言大可不必,但提示词本身却有着无限可能。
红杉一代目 Don Valentine 曾回忆,自己见过最会提问题的人是乔布斯和红杉二代目 Michael Moritz。
提示词的本质是好问题,而不是提示。不管有多好的大模型,好问题永远都有价值。
01 提示词产品创新浪潮
提示词的发展是与生成式 AI 和大模型的发展紧密相关。
在去年 8 月美国科罗拉多州艺术博览会上的作品《太空歌剧院》大火之后,Midjourney、Stable Diffusion、DALLE 等 AI 绘画大模型迅速火爆全网,相伴而生的是各类 AI 绘画提示词网站和课程,比如做提示词交易市场的 PromptBase、做提示词生成器的 AI 画廊等。
第二波浪潮是 ChatGPT、尤其是 GPT-4 发布后,用户看到了 AI 聊天机器人的强大实力,开始探索各种各样提示词的玩法,"Prompt Engineer" 这一职业也应运而生,抖音上出现了很多打着 " 成为年薪百万的提示词工程师 " 的旗号售价 199、299 等的提示词课程,门槛费用在 200-1000 不等的提示词社群、知识星球等也如雨后春笋般出现。
第三波浪潮则是今年 11 月 GPTs 发布之后,提示词的创作过程和使用场景发生了极大的变化—— GPTs 通过对话的形式,将一些 " 原始提示词 " 封装在了一个小小的对话机器人里,用户通过和 GPT 对话(对话的过程也是输入原始提示词的过程)创造出自己的 GPTs 之后,可以自用也可以分发,GPTs 能够基于其原始的训练数据,更加高效、专业地解决用户问题。
GPTs 发布之后,一批非官方的 GPTs 商店如 Supertools、Suefel、GPTs Hunter 等如雨后春笋般出现,用户对 " 手搓大模型——打造自己的 GPTs" 表现出了前所未有的热情,搞出了数据分析、学术论文、英语学习、武林秘传、塔罗测算、为你写诗、模拟老爸……等形形色色的 GPTs。截至 12 月 16 日,也就是 GPTs 开放给用户之后大约一个月的事件里,GPTs Hunter 上已汇聚了 61818 个 GPT,而整个 ChatGPT 上的 GPTs 数量更是远远超过这个数字。
GPTs 让人们的想象力和创造力得到了极大的发挥,他们搞出了一些相当 " 炸裂 " 的 GPTs:
比如 AI 产品经理陈财猫制作的 " 提示精灵小富贵(Prompt Pet)",可以让用户通过输入需求获得自己想要的提示词;
比如,有国外大神制作了一个名为 "Grimoire (魔法书)" 的 GPTs,它可以被看做一个 " 无代码编程系统 ",用户通过输入一句话、或者不断和 Grimoire 进行对话,就可以创建网站和应用程式。
再比如,品牌设计师兼作家 Jackson Greathouse Fall 在今年 3 月 15 日给了 GPT-4 100 美金,然后让它命令自己做各种各样的事情。ChatGPT 先是让他做了一个环保主题的网站,去卖各种各样的周边产品;然后 ChatGPT 教他怎么样用 DALL · E 2 设计这个网站的 logo,甚至给了 DALL · E 2 的 prompt 让他直接放入这个模型里面;接着,教他怎么样去写一个网站,给了他一部分的源代码,他很快就把这个网站搭好了。到后来,GPT 甚至还告诉了他应该怎么样去融资,帮他做了一个融资商业计划书的 PPT 。
一周后,HustleGPT 帮他赚了 130 美元,在 Discord 上获得了 2095 个粉丝;Jacson 也真的获得了一个天使投资人的投资,他现在公司的估值是 25000 美金。
这三波 AI 浪潮在让人们惊叹技术发展速度的同时,也助推了 " 提示词 " 这一概念的热度。越来越多人关注到了这一领網域,开始寻找 " 提示词 " 更多的可能性,「INFOARK 方舟」社区主理人刘芮麟就是其中一位。
刘芮麟此前是一家互联网医疗公司的内容负责人,也是最早一波接触 ChatGPT 的用户之一。ChatGPT 发布之后,他发现原本一天需要 10 个小时才能完成的工作只需要四个小时就能完成,这让他十分激动,开始探索各种 AI 工具的同时,也成为了一名 AIGC 领網域的忠实信徒。今年 6 月,他离职创业,和几个朋友一起推出了「INFOARK 方舟」社区。
INFOARK 方舟社区原名 "Info.Ark 明日方舟 ",是一个 AIGC 领網域的开源知识库,主要提供 AIGC 领網域的基础知识、相关课程、信息源推荐、学术论文、工具介绍等内容。目前 INFOARK 主要聚焦的赛道是提示词领網域,在 INFOARK 方舟社区主文档中,提供了关于 Prompt 非常详细的原理介绍、相关教程和指令库, 即使是小白也能轻松阅读。
目前,INFOARK 社区已经积累了不少付费用户,刘芮麟的创业团队也通过知识星球订阅、高端付费课程和企业合作商单获得了稳定的现金流。
然而,这并不是他们最终想要达到的目的,在他们看来,INFOARK 方舟社区只是聚拢流量的第一步,他们真正想要做的,是一个类似最近大火的卡通片《万神殿》里 " 上载智能(Uploaded Intelligence)" 的东西——一个数字化的 " 第二大腦 "。
" 我们认为人类的智能还有很大一部分没有被开发,比如很多人数学不好是因为没有数形结合的思维,可能需要开发一款产品,通过可视化、数形结合的方式让人理解数学;再比如人腦的信息过滤能力是有限的,无法处理海量的信息。那么我们就要找到一套过滤信息的手段。这都意味着,你需一套基于 " 第二大腦 " 的軟體来帮助你,更好的构建你的心智算法、心智模型。这套心智算法和心智模型是‘軟體’,是需要依附在硬體之上的,它存在于人的肉身之上可能会消亡,但是存在于计算机硬體之上不会,因为硬碟是可以拷贝和转移的,但是这要消耗巨大的能量。和机器相比,人类最后的尊严可能是,利用极少的能量,调用我们体内的‘认知模型’去消化知识、获得洞见,这是人类相比于机器的优势,有点类似于‘直觉’。
我们应该强化这种优势,因此我们想做一个‘知识生命周期管理’的产品,它能够模拟人的心智,实现知识的创造 - 继承 - 利用 - 分发 - 销毁这一整套的流程,把人类在认知和心智上的优势流传下去,构建一个类似 Avatar 的‘数字分身’,它听起来可能和笔记軟體比较像,但是它的输入方式和思考方式与笔记軟體完全不同,是通过对话的方式进行的。我们会设计一种新的 Prompt ——「一套问题体系」去和你聊天,通过这套问题体系,它就能获知你的内在价值观、认知模型、决策模型等底层的心智算法,从而构建出你的模拟‘第二大腦’ ",刘芮麟说。
在刘芮麟看来,Prompt 是一种数据清洗、把信息处理得更加 " 工程化 " 的手段,由于在大模型的训练过程中,不断追求用更低成本实现更好的训练效果,所以才出现了 Prompt。他认为,Prompt 最大的价值就在于怎么把隐性知识通过流程化、标准化、自动化变成显性知识;好的 Prompt 包含对业务的理解和思考,好用的 Prompt 流程应该是一个系统化的流程,而好用的 Prompt,则应该封装成为解决实际问题的工作流,这也是他们在未来的 " 第二大腦 " 产品中所要做的尝试。
除了刘芮麟,同样在 Prompt 领網域做知识付费的还有袁六伟。
袁六伟是知识星球 "AI 指令俱乐部 " 的主理人,也是 ChatGPT 发布后民间最早一波自学成才的指令工程师。他为海尔、科大讯飞等三十多家公司定制过 Prompt,一条 Prompt 的报价在 5000-2 万元不等,通过指令定制实现了月入 10 万,也通过对 Prompt 的深度钻研创办起了没有技术背景的 "2 人公司 ",依靠指令定制、训练营、付费咨询、付费社群等方式,获得了一年近百万的营收。
袁六伟认为,Prompt 未来会有两种发展路径:在普通用户侧,随着 AI 对语义的理解越来越深,Prompt 会变得越来越简单易上手,越来越接近自然语言;在专业用户侧,Prompt 会发展成一门 " 语言 ",类似编程语言一样,会有专门的 Prompt Engineer 职位来使用 AI,比如科研、数据分析、技术开发、内容创作等垂直领網域,需要专门的指令工程师来设计和优化 Prompt,以引导 AI 进行复杂的任务。
" 未来 AI 肯定会像电力一样,成为人们生活中的基础设施,但是 AI 真正的价值在于‘服务’。OpenAI 官方肯定会打磨一些指令嵌入到大模型当中去,让用户更好地使用,但是人的需求是多种多样的,官方没有这个精力也没有这个能力去覆盖各个领網域的指令,所以在垂直领網域,就需要我们这样各行各业的专家们去打造指令。我认为 Prompt 会像现在的编程语言一样会成为一门语言、一门学科,它的市场会比编程语言大百倍、千倍,因为它是基于自然语言的,它的閱聽人范围和使用场景比编程语言大得多 ",袁六伟说。
02 技术派眼里的提示词
如果说刘芮麟和袁六伟代表了非技术派的观点,那么在技术派眼里,提示词还有非常多可改进的地方和想象空间。
云中江树是最近火热的 " 结构化提示词 " 写作范式的发起人,也是 GitHub 上有着 8k+ star 的「ChatGPT 中文指南」项目和有着 2k+star 的「LangGPT」项目的作者、EmbraceAGI 开源社区的联合创始人。LangGPT 项目给提示词设定了一套 " 模板 " 和 " 框架 ",通过設定层级结构、标识符、属性词等形式,让很多小白用户通过完形填空的方式就能轻松写出效果还不错的提示词。
以调教 GPT 生产 " 诗人 Prompt" 为例,LangGPT 写出来的提示词是这样的:
而当我们把这套提示词输入 ChatGPT,它给出的结果是这样的:
云中江树向我们分享了一个他心目中用 LangGPT 结构化提示词方法撰写的最酷的提示词案例:一个超级酷的老师,擅长使用最简单的词汇和通俗的语言来教会 0 基础的学生。
上述提示词的作者李继刚是一位互联网产品经理,他同样也是有着技术背景的提示词爱好者。他认为,图片生成领網域,现在基本做到了去 Prompt 化,以前的很多咒语性的写法,现在都不太需要了;但是在文字生成领網域,提示词还是需要的。
李继刚提出了提示词的 " 织梦理论 " ——写提示词的过程是在为大模型营造一个 " 梦境 ",写 Prompt 就是在织梦,Prompt Engineer 就是织梦师。"Prompt" 就像一根根线索,引导 ChatGPT 走进你所编织的梦境深处。织梦师的技巧越高超,通过 Prompt 织出的梦境就越真实,越能让 ChatGPT 成为 " 梦中人 "。
云中江树和李继刚都把 Prompt 看做AI 时代的编程语言,而且都旗帜鲜明地反对 " 提示词消亡论 "。
" 提示词有一个非常明显的特点,它用的是自然语言,各个国家都能用自己的语言去使用它和机器进行对话。如果你把它看做一门编程语言,那么会得出两个结论——第一,编程人员会变多,只要有账号、能访问大模型的人都可以编程,那么各种千奇百怪的创意也会多一些;第二,编程人员会分化,一定是有一波人钻研的比较深(提示词工程师)、另一部分比较浅(普通用户),提示词工程师会尝试着把织梦这个事情做得更重、更结构化、逻辑更复杂,而普通用户端则是更加轻量化、更容易的撰写提示词。一个往前端的方向走,一个往后端的方向走,一切都是为了梦中人对话的那个环节更加轻量化。" 李继刚说。
而基于上述结论,李继刚认为,微调模型的时代会到来,各家公司一定会把自己的数据结合大模型的能力去微调,形成自己公司独有的 " 小模型",这种 " 小模型 " 更贴近应用场景、理解能力更强,也是 GPT-4 到 GPT5 所必然要经历的一种演化路径。
云中江树则认为,未来的提示词可能是多模态的。" 提示词本身不但不是过渡产品,反而是产品演进的长期趋势。随着多模态大模型技术发展,未来我们可以将表情包、动态视频等都作为提示词的一部分,我们得到的输出,也可以是图文音并茂的结果。Prompt 的上限并没有被拉低,反而因为这种东西的出现,Prompt 的上限还被提高了。"
《ChatGPT 进阶 提示工程入门》的作者陈财猫同样提到了未来提示词会变得 " 多模态 " 的观点。他认为,随着 AI 技术的进步,Prompt(提示词)可能会消失,但是 "Prompt Engineering(提示词工程)" 会持续存在。
陈财猫将 Prompt 分为了两类:
第一类是弥补 AI 缺点的 Pompt。此类 Prompt 的作用主要是 " 弥补 " 模型能力的不足;
第二类是 " 帮助 AI 理解人类需求 " 的 Prompt。我们实际上是通过 Prompt 来给 AI 定义一个目标,交代清楚业务,帮助它理解清楚人类的需求。
针对第一类 Prompt,一个很经典的例子是 " 扫地机器人遇到狗屎没有避开 "。一个扫地机器人在遇到狗屎的时候没有避开,反而继续 " 清洁 "。结果就是脏东西拖满了整个屋子。这种情况下,提示词工程师就不得不下类似于 " 扫地的时候要避开脏东西,不要把它拖得全屋都是 "," 遇到脏的地方需要多扫几遍 " 这种看似废话的 Prompt。
这其实是 AI 智能程度低,或理解人类需求(对齐)不足的表现。然而,随着技术发展的日新月异,我们甚至都不用等模型本身改进,一些产品上的设计就可以解决掉一些这种 case。因此,此类 Prompt 可能会很快退出历史舞台。
针对第二类 Prompt,同样以机器人扫地为例,假设现在 AI 很聪明了,不仅知道见到狗屎要避开,还知道拿一个小铲子把它铲起来丢掉。但是在你家扫地就要有你家的规矩,比如必须先扫客厅再扫厨房,打扫的时候不准发出一点声音;如果遇到你的女朋友,还必须 " 向尊敬的少奶奶请安 ";为了增强娱乐效果,这个机器人还要一边打扫一边做后空翻。
在这种情况下,就算 AI 再聪明,它也很有可能搞不清情况和我们想要的效果,这就是 " 不懂业务 "。这时候,我们需要用很清晰的语言把业务规则列出来,比如用特定的顺序打扫 " 的 " 顺序 " 是什么样的。因此,第二类 Prompt 还可以存活很长一段时间。
此外,陈财猫还提到了提示词发展的一个很重要的趋势——去设施化,现在以軟體与功能为中心的人机互動会演变成以 AI 为中心的人机互動,用户只要说一句自己的需求,不需要任何介质,AI 就能立即实现用户的需求。
" 这段时间最让我印象深刻的是一个叫「Open Interpreter」的开源项目,这个项目的官方宣传标语叫’ A new way to use computer ‘——’使用电腦的新方式’,也就是说,你可以随时向它下命令,AI 就会去分析、计划,然后写代码实现你的需求。举个例子,在以前我们要做一个功能或者軟體,这背后需要写需求文档 - 过评审会 - 开发 - 测试等一整套复杂流程。但是现在, AI 越来越强,就算这个需求在世界上只有你一个人有,它也有可能写代码当场满足你 ",陈财猫说,"在这种情况下,想法就会变得比实现有价值的多。"
03 提示词的下一个趋势:GUI+CUI
如果上述设想太过遥远,那么未来一到两年,生成式 AI 和提示词的下一个趋势是什么?
知名提示词工程文档 LearningPrompt.wiki 的创作者、开源应用 PoleStar Chat 创始人 Jimmy Wong 坚信,是GUI(Graphical User Interface,图形化互動界面)+CUI(Conversational User Interface,对话式互動界面)结合的产品。
他认为,一个通过 GUI 弥补 CUI Prompt 不足的很好的例子是,以 ComfyUI 为代表的文生图、文生视频工作流。
ComfyUI 是一个基于节点流程式的 Stable Diffusion AI 绘图工具,它可以将 Stable Diffusion 的流程拆抽成节点,以实现更加精准的工作流定制和完善的可复现性。
ComfyUI 的界面直观易用,AI 绘画的每个步骤都被拆成了一个节点,比如加载模型 ( Load Checkpoint ) 、采样器 ( KSampler ) 、提示词 ( Prompt ) 等都是以节点的形式存在,用户可以快速上手并轻松绘图。
通过 ComfyUI,用户可以用微调节点、修改笔触或者提示词的方式,就可以实现实时的 AI 绘画效果。它比传统的文生图大模型最大的优势就在于 " 指哪打哪 " ——之前我们总是吐槽 AI 绘图全靠抽卡,但是 ComfyUI 的出现让文生图变得可控了。同时,ComfyUI 还可以制作 AI 动图、生成 AI 动画,效果不输 Runway 和最近大火的 PIKA。
" 现在是 Stable Diffusion 模型的战国时代,而且相对 LLM 来说没有像 OpenAI 那样的巨头存在。我认为 AI-Native 产品可能会出现在这个领網域,甚至明年都有可能出现 AI 生成的电影。对于小创业者来说,这可能是更有机会的方向 ",Jimmy Wong 说。