今天小编分享的科技经验:AI落地现状:大事干不了,小事没必要,欢迎阅读。
大模型未必最优,小模型也有机会
前几天刷 B 站的时候,碰到了一个很抽象很难评的事情——一个科普 up 主的视频里,夹带了一个 AI 产品的广告。
接广子本身不是问题,问题是广子和 up 主的属性实在犯冲——这个 AI 产品,主打的是帮你分析办公室工位的风水。
科普 up 主接风水商单,这可能就是所谓的 " 科学的尽头是玄学 " 吧。
实际上,在当下这个 AI 横行的时代,被广泛证明行之有效能赚钱的 AI 落地方式,恰恰就是看上去很野路子的 AI 陪伴和 AI 玄学——虚拟男友 / 女友,AI 看风水、AI 算命等等。
有直接用 AI 满足穿越古代愿望的
有直接设定好了人设和剧情选项直接角色扮演的
有和 AI 女友斗智斗勇的
最乐子的还得是看风水和算命的,比如我问他梦到武装直升机是什么预兆,他说:直升机象征着向上和自由,武装直升机更强调力量和战斗能力,所以预示着我在现实生活中获得更多的勇气和自信,能够勇敢面对挑战。
为什么 AI 在这些领網域的落地特别有效果?
因为这些领網域主打的就是一个 " 模棱两可 " ——算命这事儿,和星座一样,从来都是正反看来都对,不信你可以看看别的星座的介绍,你会发现似乎放在自己身上也都说得通。
这是人类历史最悠久的 " 文字游戏 ",而现在的 AI,基本也都是 " 大语言模型 "。
都是玩文字游戏的高手。
今天,我们就来聊聊当下 AI 的落地姿势。
01 AI 落地的矛盾
比较有趣的是,当前人们对于 AI 落地的看法,往往呈现出两种完全不同的趋势。
在老板们的眼里,AI 似乎是一种让公司原地飞升的灵丹妙药—— AI 来了,成本就降低了,AI 来了,效率就有了。似乎好像靠着 AI,就能精简公司团队,从而实现降本增效。
而在具体做事的一线员工看来,AI 却并不像宣传中那样强大,有时候与其说是 " 人工智能 ",不如说是 " 人工智障 " —— 压根儿不具备独立完成整体任务的能力,能在某些环节里帮上忙就已经烧高香了。
这种矛盾的来源是人们对于当前 AI 的一种判断——我们似乎高估了当下 AI 的能力,总认为大模型带来的技术飞跃足够强大,可以靠着某种 " 杀手应用 " 来解决普及和落地的问题。
很难说这种观念是对是错,因为长期来看,确实有很大可能会这样发展下去。但短期来看,这种 " 杀手应用 " 并不现实。
当前的 AI 并不足以满足这样的期待。
以央视新闻曾经报道过的一个案例来说,上海的一家游戏公司从 2022 年开始就在使用人工智能技术辅助游戏开发,在游戏角色的设计环节,使用人工智能之后,开发周期大大缩减。例如某款休闲类游戏中,可能设计 1000 多个圖示,如果是人工绘制,每一个圖示的成本 400 元左右,1000 多个圖示将会耗时一个多月,成本高达 60 万元。但在 AI 辅助后,基本上一个人两个星期就能完成,只需要两三万元的成本。
从这案例可以看出,AI 要做的并不是直接取代人类,或者直接帮助人类完成所有工作。 更多,只是去帮助加速某些环节(比如设计环节),从而相比以前减少成本。
还是我们之前文章里表达过的观点:当下的 AI,都是大语言模型,本质上都是在 " 猜字谜 " —— AI 确实能理解我说的每一个字,也确实能够给出看上去还挺靠谱的回答,但这一切的背后,不是 AI 真的理解了这个世界的规律,而是 AI 觉得这样的回答更容易被人类接受罢了。
尤其是当你要求 AI 完成一个相对完整的任务,这种马脚就会立刻显露出来——当下的 AI 根本不知道事物的规律,只是在根据训练的数据, 做出一些似乎看上去还挺靠谱的回答而已。
以 Openai 的 Sora 模型生成的视频来说,在早期的一段宣传视频中,AI 被要求生成一段建筑工地的移轴画面,整体看上去似乎还不错,但如果仔细看,你会发现,视频里的叉车根本不理会地面上堆放的建筑材料,直接开了上去,而且碰到人之后原地来了个漂移。
这就是一个典型的 AI 生成作品的问题:它只给你提供一个看似靠谱的东西,因为它并不能从原理上知道该怎么做。
因此,如果要评价当下 AI 带给我们的实际体验,大概率会是这样的一种感觉:如果我们需要走 100 公里的路, 当前的 AI 并不能让我们在转瞬间走完这 100 公里,但却可以让其中的 10 公里的路段变得更好走。
02 产业 AI 和大众 AI
从另一个角度来看的话,则是成本和收益的问题。
本轮的 AI 浪潮,核心其实是 LLM,即语言大模型——参数量数十亿乃至上百亿,需要专门的 GPU 集群,训练成本极高——真正能跑出来的产品,无一例外,都是用真金白银堆砌起来的。
但 AI 显然是要普及的,封闭、资本密集的大模型并不符合这样的大趋势。于是乎,开源的小模型成为了新的热点——大模型的体量,使得它在手机、物联网设备等小型终端上部署起来颇为麻烦,但小模型则不同。尤其是那些要求快速反应的领網域,比如语音和影像的识别处理,小模型的处理效率也会更快——某种程度上说,小模型相当于是大模型的精华版。
以 openai 的 GPT-4o mini 来说,成本下降的情况下,质量反而更高,这就是数据集和训练方式改变后带来的突破。
当前 AI 的这种特性,也影响了产业 AI 和大众 AI 的发展方向——因为当下的 AI 大模型,哪怕开发成本高昂、功能强大,其实也不足以做到 0-100 都给我高质量包圆,所以 AI 要么就是专精于某一个环节,帮助产业里的某个环节提速,即产业 AI;要么就是直接娱乐化,也不追求什么质量,差不多能用就行,即通常的大众 AI。
大众 AI 的例子很多,国外的有 chatgpt,midjourney 等,国内有文心一言、豆包等,
这些 AI 产品的相似性是:基本都是黑盒模式,你根本不知道它到底是怎么操作的,在具体使用的时候,往往是需要多次生成,然后在诸多结果里选择最优的那个。
以 Chat-gpt 这样的大语言模型来说,它的工作原理就是去 " 猜字谜 " ——首先是数据收集与准备工作。所需的数据来源广泛,包括小说、新闻报道,甚至涵盖视频和音频等多种形式。
除此之外,还需构建一个庞大且多样化的语料库,以便模型进行深入学习。为提高学习效率,应对这些原始数据进行严格的标准化处理,确保模型能够更为高效地摄取和处理信息。
随后,在构建大语言模型的过程中,基于 Transformer 架构成为首选。尽管 Transformer 架构在技术层面颇为复杂,但从本质上讲,它能够模拟人类语言的语法规则,进而实现自然且流畅的内容生成,相当于是让 AI 掌握的基本的人类语法知识——所以虽然 AI 给出的东西未必好用,但肯定不会胡言乱语——在这方面,Transformer 架构可以被视作 AI 的语言中枢及表达工具。
而之后的训练,则需要 MLM 技术的干预——在训练环节,随机遮挡住输入文本里的一些词汇,不需要人工介入,模型就会自动利用剩下的信息去分析判断,在这个过程里,大模型会学习到词汇之间的关系,知道如何去理解一句话和一段话的上下文关系,从而提高它对于自然语言的驾驭能力。
像是图片生成类的 AI 其实也都是类似的原理,只不过把遮盖起来的东西从文字变成了影像。
而专业的 AI 则相反,更加精准,不需要多次生成结果选最优。在这个领網域,国外有 Adobe firefly 和 comic maker ai,国内有钉钉 AI。
以 adobe firefly 来说,它相当于是让传统的 Photoshop 軟體有了 AI 功能,用户不再需要像以前那样手动在十几个菜单里选择不同的选项进行操作,而是可以圈起来要修改的部分,直接用自然语言命令 AI 完成特定的操作。而钉钉的 AI 则有各种智能助手功能——例如 "AI 工单助理 ",可以自动抓取钉钉群里的消息,分析其中表达的诉求,根据预先学习的企业知识,自动生成工单并派单给有关责任人。
不论是 firefly,还是钉钉的工单助理,说到底,其实是先得有 photoshop 和钉钉这样的工具类軟體,而后才能在此基础上进行 AI 更新,从而开发出相关的 AI 产品—— 这类专业 AI 产品仅能在本体軟體的范围内活动,但却能更精准、更高效,不需要像大众 AI 产品那样多次生成选最好。
03 结尾:实用主义的 AI
综上所述,我们可以清晰地看到,当下的 AI 正处在一个充满矛盾与机遇的发展阶段。它既能在某些特定领網域大放异彩,为我们带来前所未有的便捷与效率,又时常会在更广泛的任务面前显得捉襟见肘,暴露出其能力的局限性。
没办法,技术的发展从来不是一蹴而就的,从来都是螺旋上升的——现在是 2024 年,5 年前的 2019 年,我们之中绝大多数人不会意识到 AI 会发展成现在这个样子。
当下的 AI 大模型等产品,虽然还有这样或者那样的问题,但技术的发展是相当迅速的,AI 大模型的进化是比摩尔定律的速度更吓人的—— 尤其是在当下,在强化学习技术越来越成熟的情况下,AI 将不再只是猜字谜,而是真正开始学习、认识这个世界,具备独立思考的能力。
本文来自微信公众号 " 星海情报局 ",作者:星海老局。