今天小编分享的互联网经验:大模型打响开闭源之战,欢迎阅读。
图片来源 @视觉中国
文 | 科技新知
大模型的开、闭源之战,开始得比想象中早上一些。
7 月 18 日,Facebook 母公司 Meta 表示,将发布其开源大模型 Llama 的商用版本,为初创企业和其他企业提供了一个强大的免费选择,以取代 OpenAI 和谷歌出售的昂贵的专有模型。同时宣布,Llama 将由微软通过其 Azure 云服务分发,并将在 Windows 作業系統上运行,并称微软是 " 我们的首选合作伙伴 "。
一时间,有不少分析人士认为,Llama 将改变 AIGC 的产业格局。Meta 副总裁、人工智能部门负责人杨立昆也赶来站台,"Llama 2 将改变大语言模型市场的格局。" 事实真的如此没有悬念吗?
开源(Open Source),即开放源代码,最早起源于 20 世纪 50、60 年代的美国。早期开发互联网技术和电信网络協定时,研究人员需要进行开放式的协作环境。而 1968 年 Internet 的先驱阿帕网(ARPANET)的建立,成为了对开放源代码可行性展示的标志。到了 1985 年,自由軟體运动领袖理查德 · 斯托曼(Richard Stallman),看到以专利軟體为手段的商业化逐渐取代实验室中免费可自由流通的軟體后,发表了著名的 GNU 宣言,开启了开源运动,最终导致了免费的 Linux 作業系統的诞生。
自 ChatGPT 爆火以来,将其开源的呼声未曾断绝。可就在 ChatGPT2 发布之后,OpenAI 选择了闭源发展。这也未必完全出于规避竞争的考量,就算某天 OpenAI 真的完全 open 了,其他同行也不能简单复制其成功的路径。
因为 ChatGPT 能够引发 "iPhone 时刻 " 的原因在于,强大的生成能力给予了人们不一样的场景体验。但这背后依赖 OpenAI 很长一段时间内在算力、算法和数据方面的积累。实际上,在这场全球大模型军备赛中,有关开源发展和闭源深耕的争论将继续下去不止不休。
开源 or 闭源
历史的车轮总会重复碾过,在互联网发展史上,有关开源和闭源的战争一直都在上演。
除了上文理查德 · 斯托曼的 GNU 宣言,打响对闭源的第一枪外,随后的 PC 时代有关开闭源的争论也没停过。
PC 刚兴起之时,微软内部的研发团队通过闭源开发 Windows 作業系統,并开发配套的应用軟體如 Office 等,并在生态建设方面组局 Inter 形成 Wintel 联盟,成功抢占了 PC 市场。而 Linux 在那个时期,则属于自发的 " 民间组织 ",由全球开发者共同参与建设,通过开源与微软形成了一定的竞争。
到了移动互联网时代,谷歌的 Android 和苹果的 iOS 开闭源之争,也是各自走出了不同的路径。基于 Android 的开放,诞生了一大批的定制化手机作業系統,比如国内小米的 MIUI、OPPO 的 ColorOS 等,就连车机端的比亚迪车机系统都是基于 Android 开发而来。当然,就商业成功的角度来看,微软和苹果的阵地一定时期内更加牢靠。
在 SaaS 的发展史上,軟體的开源也与上同理。中科院院士、CCF 开源发展委员会主任王怀民教授关于开闭源认为,在一个确定发展方向的时代中,闭源公司的推进效果是明显的,竞争力也是极强的。" 但当一个不确定性的互联网时代到来时,开源吸引了全球开发者参与其中的可能,使得后来的伺服器作業系統、云作業系統、手机作業系統、物联网作業系統都是以开源的 Linux 为基础。"
国外有 ChatGPT 与 Llama 之争,国内的大模型厂商也各有千秋。
如阿里云、智谱和清华 EKG、百川智能等,选择了开源。阿里云公布 1+4 开源战略,推出大模型方向的开源新势力魔搭 GPT。阿里巴巴达摩院高级算法工程师李晨亮,曾对外表示," 开源生态肯定是有助于大模型的繁荣。" 反之,华为的盘古大模型就选择了闭源,也是为了其数据隐私和商业收益的考虑。
价优者胜?
大模型开源之后,会吸引更多的人才参与进入,加快技术进步,但想要实现突破,还需要从底层理解模型框架和算法基本原理。众所周知,人工智能三要素是:算力、算法和数据。开源只是处于算法阶段,之后还需要对其进行大量的算力支持和数据训练,这背后的成本就相当高昂。
以 OpenAI 为例:业内人士表示,大模型训练和运行将耗费巨大的算力资源和数据,仅是在 2022 年,OpenAI 总计花费就达到了 5.4 亿美元,与之形成鲜明对比的,则是其产生的收入只有 2800 万美元。
有行业消息透露,一家上市公司的人工智能部门打算用 OpenAI 的 GPT-3.5 开发功能,但迫于成本和定制开发以及不支持同一时间响应大量用户请求的原因,选择了参数量更小的 Llama 和一个国内公司的开源大模型,在后期的训练和部署的成本也会更低。
" 开源模式的任何渐进式改进都在蚕食闭源模式的市场份额,因为你可以以更低的成本运行它们,而且依赖性更小。" 軟體开发平台 Replit 的首席执行官 Amjad Masad 表示。
开源也能让其他新加入者更快适应 AI 产业。比如在谷歌泄漏的檔案中就提到:几乎任何人都能按照自己的想法实现模型微调,到时候一天之内的训练周期将成为常态。以这样的速度,微调的累积效应将很快帮助小模型克服体量上的劣势。
更多的人进来使用,就会产生更多的数据。这些互联网原生内容的常态化训练,远比一家公司仅凭一己之力去做数据的采集和标注要简单得多。
共享出 Llama 的 Meta 表示,收集的数据代表着根据经验采样的人类偏好,由人类标注员选择自己更喜欢两条模型输出中的哪一条。人类给出的反馈意见随后将用于训练奖励模型,该模型会不断学习人类标注员的偏好模式,再据此自动执行偏好决策。
开源的好处显而易见,闭源的道理也逻辑扎实。
元创资本的研究显示,相较于开源来说,闭源模型相对成熟、数据质量更有保障,同时也省去了部署的麻烦,费用相对较低,仅需支付 token 的费用。
当然最重要的是,对于厂商来说, 闭源还有着商业的考量。根据权威杂志《Fast Company》预测,OpenAI 2023 年的收入将达到 2 亿美元,包括提供 API 数据接口服务、聊天机器人订阅服务费等。
对垒刚开始
上个月,猎豹移动 CEO 傅盛与投资人朱啸虎的口水战引发热议。核心冲突就在于行业对于大模型的价值思考,在于大模型能不能解决问题。
如今,以 OpenAI 为代表的大公司、强算力、强算法,共同砌成了一道普通创业者和开发人员难以突破的围墙,以至于当市场上出现其他类似开源的应用时,人们都认为是大模型行业的垄断要被打破了。
实际上,自 OpenAI 推出 ChatGPT 引发全球跟风以来,英伟达的股价便迎来了暴涨,主要源于厂商对算力芯片的强烈需求。换句话说,即使开源了人人都有大模型,那算力、算法和数据训练的工作还是需要有人来做。并且开源也仅仅相当于开放了设计图纸,你可以在图纸上进行调优,但并不代表就能完整造出一幢建筑。
就比如一些大模型产品刚上线时,经常出现语义理解不准确,产出结果令人啼笑皆非的现象。背后原因就是对高质量数据的筛选和训练得过少,导致数据的准确性直接影响人工智能的产出结果。
但训练数据并不是一时的,涉及到数据的采集、清洗、标注的另一条产业链。在过去的很长一段时间内,这个环节都是由专门的数据处理公司来做,也就是说,需要进行长期的人力投入。
有业内的数据优化工程师表达了类似看法,大模型本身的泛化能力仍受限于数据。如果说 ChatGPT 要替代某个职业或岗位的话,最简单的一个判定标准即是,是否具备数量足够多、质量非常好的数据。同理,想要通过开源去打破垄断的模型,还需要对数据进行足够的优化,对基础设施的投入足够得多。
大模型的开闭源之争,终究不会是靠某一个或几个产品的出现而终结,更多的还要顶尖人才参与、技术迭代和资金支持。想要打破垄断,还需要考虑时间的因素以及对高质量数据的筛选。
开或闭,从来不是最根本的问题,产品体验与市场需求的匹配,才是起决定作用的胜负手。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App