今天小编分享的科技经验:开源大模型领網域最重要的玩家们,在关心/担心什么,欢迎阅读。
开源模型与闭源模型,正成为两股并行的力量。
从 2 月份 Meta 发布的 Llama,到 3 月份斯坦福大学微调 Llama 后发布的 Alpaca,再到 5 月份出现的 Falcon,世界各地的开源模型在「内卷」中快速进步。
7 月 18 日,Llama2 的出现,更是直接让大模型的竞争格局变天了。
开源模型作为大模型领網域的「地板」,Llama2 开源且有条件地开放了商业使用后,很多「水平有限」的大模型还没商用,就已过时。「接下来,会有一大批人用自己的数据训练这个模型,从 Bert、到Llama系列,每一个强大的基座模型被放到开源社区后,都会有一大波寒武纪生命大爆发的现象。」
见过「历史」的尹一峰(Hugging Face 工程师)认为,「模型每天都在变化,随时会被更新掉,但是建立很好的数据集,能让你接下来很长一段时间受用。」
然而,一个不常被讨论和关注的事实是:「现在开源社区用的数据都是 ChatGPT 对话的数据」,RWKV 罗璇说,「这是很大的问题,数据不会开源,而开源社区应该更关注数据的建立」。
数据的瓶颈一旦被破除,开源社区可以发挥极佳的组织优势,在大模型能力上接近甚至超过闭源大模型。比如,在 AI 编程场景,开源遥遥领先。对于开源社区而言,没有明显的编程数据劣势,很多超越了闭源模型在 AI 编程场景的质量。
另一方面,开源模型,企业客户用起来放心。相比闭源大模型的黑箱,「透明化的文章都出来了,代码也发出来了,用起来你放心,知道里面有什么」。像 Llama2 这样的开源模型,公布了训练数据、方法、标注等细节。
7 月 23 日,在极客公园主办的 AGI Playground 大会上,来自 Hugging Face、RWKV、Stability AI 等几家知名开源大模型公司的从业者,分享了在这波 AI 浪潮中,开源模型的优势,以及未来的发展趋势。
本场圆桌嘉宾简介(从左到右依次为):
陈昱:云启资本 合伙人,圆桌主持人。云启长期关注 AI 技术发展和产业迭代,在早期领投了 PingCAP、Ziliiz、Jina AI、RisingWave、TabbyML 等开源公司和大模型公司 MiniMax。
刘聪:BentoML 亚太区负责人。BentoML 为开发者和企业提供构建部署和扩展 AI 应用程式的能力,其开源项目已经有上千家海外公司在使用。
罗璇:RWKV、Syrius 炬星 联合创始人。RWKV 是一个开源大模型,开源可商用,其最大特点是,采用了一种新的模型架构,计算效率远比 Transformer 更高。同时,RWKV 也是全球的开发者社区,在 Github 上有两百多个项目。
尹一峰:Hugging Face 机器学习工程师。Hugging Face 是一个专门针对机器学习的开源平台和社区。
郑屹州:Stability AI 技术产品总监。Stability AI 主要做开源的基础模型,其中最为熟知的是 Stable Diffusion。
张萌:TabbyML 创始人。TabbyML 的业务是做开源 AI coding 助理的解决方案。
开源模型最应该关注数
陈昱:无论是 RWKV,还是Stable Diffusion,都有自己的开源模型。大厂像 Meta 上周刚发布了 Llama2。怎么看开源模型或者开放模型这件事情?它会不会对 OpenAI 或者 Google 的闭源模型带来一些冲击?
刘聪:我们是帮助大模型上线的一家公司,最近海外客户的需求变化很快,从一开始 Llama-based,然后 Falcon-based,最近很多客户又让我们帮忙上线 Llama 2。
我们感觉开源的模型能力变得越来越好,但还是限于私有化部署以及商业公司内部的一些用例。普适化的用例可能还是依赖 OpenAI 这种大模型的能力。
罗璇:为什么 OpenAI 不开源,我之前也问过陆奇老师这个问题,他是担心开源会导致一些人把它用到坏的地方。闭源有可能更安全,但是我们认为,闭源是闭不住的,因为实际没有门槛,现在 Llama 也开源了更好的模型。开源可能是真正让大家都能够普惠地用到未来 AI 技术的方向。
我们开源的初衷也很简单,我们认为 OpenAI 的闭源违背了它的初衷,所以我们从 2020 年开始开源,也得到了像 Stability AI 和 Hugging Face 的支持。
其实现在很多商业公司也开始开源,但实际上是把一些效果比较差的模型开源,真正好的模型并不会开源,而且数据不会开源,数据是大家要关注的问题。现在大家开源社区用的数据都是ChatGPT对话的数据,这个是很大的问题。我认为开源社区应该更关注数据的建立,也希望所有的开源社区一起做这个事情。
尹一峰:从当年的 BERT 到 Llama,Falcon 到现在的 Llama2,每一次有这么强大的基础模型之后,都会有一大批人用自己的数据去微调这个模型,导致每一次有这么一个强大的基座模型被放到开源社区之后,就会有一大波寒武纪生命大爆发一样的现象。这个现象被命名为「The Llama Moment」。
第一,这一定会对 OpenAI 和大厂产生影响,因为开源在不断在能力上接近闭源大模型。而且开源最大的优势是透明化的,文章都写出来了,代码也发出来了,用起来你放心,知道里面有什么。但是闭源的大模型有些事情你不敢相信。
第二,其实最重要的东西还是数据,因为 Llama1 出来之后你去微调它一下,Llama2 出来你再去微调它一下,其实可以用同一批数据。模型这个东西每一天都在变化,时不时就会被更新掉,但是建立一个很好的数据集,能让你接下来很长一段时间受用。
郑屹州:我从两个角度看这个东西。首先,基础模型可以看成生产工具,这个生产工具到底在谁的手里,在不同的人手里会有什么不同的效果。
如果在大公司,作为闭源的基础模型,让大量的人使用生产工具自己发展,这样会让这个生产工具变得更高效,比如我们现在看到的 GPT-4。这样的模型会持续存在,并且对于很多直接 C 端的应用、或者不是特别 critical(严肃的)的应用非常有意义,这种比较好的性能也是大家会永远追求的东西。
开源模型是公有的生产工具,大家都拿到自己的手里,它相对比较分散,没有那么集中的资源,大家在上面做各种各样不同的事情,用力的方向也不太一样。好处是生态会变得特别繁荣,这种繁荣的生态里可以看到很多不同的东西。
模型在这个时代不单单是生产工具,它可以是你表达的渠道,是你思想的反映。如果是闭源模型,那这个模型不属于你,而开源可以让你用属于自己的模型。不管 Stable Diffusion,创造者用他自己的画风定制模型,做符合自己表达习惯的模型,还是像文本,我把我的思想,我之前的聊天记录,各种各样的信息喂到这个模型里。因为这个模型属于我,我不用担心数据所有权的问题,也不担心自己的想法会不会泄露出去,在这上面定制的一个模型是自己思想的反映。
想象一个全闭源的世界,如果你不拥有自己的模型,当未来真的走到了 AGI 时代,你怎么拥有自己的思想,怎么拥有自己能够 embody(象征)自己的一个模型呢?
张萌:现在开源模型和闭源模型在质量上有差异,但 AI 编程这个场景非常有意思。它是少数社区视角或者研究机构视角,在面对大厂像 OpenAI 或者 Google 这样的超级研究机构时,没有显著的数据劣势(的场景)。这也是为什么过去 3 到 6 个月里,除了常规的语言模型之外,coding 场景在社区层面发展得非常快,像 CodeGen2.5、WizardCoder、Phi-1 这样的模型都纷纷其实超越了这几个闭源模型在 coding 这个场景上的质量。
这是(我们公司)TabbyML 为什么在第一天就决定做开源很重要的原因,当这个生态相对多元,或者模型本身快速被变成标品。我们预期未来生态会比较多元,大家作为开发者工具部署的时候会有很多种选项。而且开发者场景里,开源本身就是在商业化获客角度非常理想的选项。在未来,尤其是 coding 这个场景,因为下游的用例太多种多样了,所以我们相信它会是一个开源模型主导,闭源模型很难追得上的状态。
开源模型越来越小,越来越好
陈昱:AI开源这个东西也是过去一年才火热的,大家有没有印象特别深刻的项目或者标志性的事件?
刘聪:标志性事件比较重要的是,当 Falcon 最开始发布的时候要收你 10% 的 royalty(使用费)。他说他是一个开源模型,但收你 10% 的 royalty。最后社区和公众对这个事情的反应很大,Falcon 最后又把这个东西去掉,完全改成 apache 兼容的 license。但是最近 Llama2 发布之后,license 里有一个商用条款,但是大家好像都没有再讨论这个事情,因为在他的条款里明确表示——如果你的月活超过 7 亿,你需要再找 Facebook 要 grant(授权),而且他没有具体写出这个 grant 到底是什么,我觉得这是开源社区需要急需解决的,大模型的开源 license。
罗璇:关于 license 这个事情,因为我们一直都是 apache 2.0 开源可商用的,我认为 Llama 还是给自己留了一些空间,Meta 毕竟是一家商业公司,我了解到他还是希望通过 Llama2 能够拉近更多的开发资源、开发者生态做元宇宙那块的事情。
我更想聊的是另外一个话题,我希望大家更关注在端侧,在终端上,比如手机、电腦、机器人、XR 上面跑的大模型,像海外上有开发者做了 Llama.CPP,也有人帮我们做 RWKV.cpp,这个是跟开发者和更多的创业者更相关的事情。只要在终端上能够跑大模型,整个对算力的需求,包括对进入的门槛拉了很低,这是非常好的事情。
另外一方面,我发现近期很多开源社区目标越来越明确,这是非常好的事情。在开源的生态,跟闭源的商业生态如果要做竞争,目标明确、路径明确以及执行力强,这是非常重要的事情。
尹一峰:最近最火的项目就是 Llama2,但是在 Llama2 这方面能看到一个趋势,现在在 70B 左右的模型已经在很多方面能跟 175B 的 OpenAI 的闭源模型可以拼一拼,这应该是一个趋势。
首先,OpenAI 的模型 2021 年就训练完了,有很多这两年出现的新技术、新架构他没有加进去。第二,像 Llama 这样的模型有这几年的技术经验积累,可以让一个小的模型做到之前大的模型才可以做到的事情。我觉得之后的趋势:可能强大到一定程度的模型,比如 100 分的模型,可能从 70B 降到 50B 也可以做到 100 分,最后可能 13B 也可以做到 100 分,最后模型越做越小,硬體越做越强大,很快就可以做到端了,等它到了端上之后 To C 的应用就可以做起来了。这也是我目前看到在商业化上面,在模型技术上面的趋势。
郑屹州:我现在观察到的一个非常有意思的现象是从 Stable Diffusion 开始,开源社区的参与者的 profile(背景)发生了变化。之前的开源社区参与者,特别是 ML(机器学习)相关的开源社区参与者,大多应该都是 ML Engineer 或者是工程师,非常非常技术导向的人。
但 SD(Stable Diffusion)可能是一个爆发点,开源社区的参与者里开始出现:大量以兴趣为驱动的人和很多草根研究者,有很多本身不是 ML(机器学习)领網域但有一定研究能力的人进来。这样丰富的社区就开始涌现,比如刚才提到端上的部署,Llama.cpp、ExLlama,这些全都是开源社区自己做出来的。当社区开始变得更跨界,社区的范围变得更广,是现在 AGI 时代或者走向 AGI 的时代里面,看到的一个比较有趣的 pattern。
张萌:我们作为语言模型的应用层,特别关注的一点就是开源大语言模型的 serving layer(服务部署层)。我分享两个我们比较关注的项目,一个是 Hugging Face 的 text generation inference,它现在是一个工程化非常好,支持、可观测性都做得非常完善的项目,我觉得已经接近于现在开源大语言模型 serving 的实施标准,它关注度也非常高。
另外有一个比较新一点的叫 vllm.ai,是伯克利的 Sky Computing Lab 在做的项目。让人惊讶的是他们应该也是打算在全方位竞争 serving layer,他们的特点是通过内存分页应用到 attention 的想法,去更容易的做 continuous patching,更容易去做吞吐量的提升。我们希望这些 serving layer 竞争的格局能够比较良性竞争,我们在应用层的角度就可以得到更好的开发者体验。
开源社区与商业化
陈昱:刚才大家提到了很多商业化的点,在大模型时代,如果真正要做好商业化,前提是什么?有什么好的商业模式?以及作为一个开源公司,内部怎么平衡自己的商业化版本和开源版本?
刘聪:我简单从 BentoML 的角度来回答这个问题。BentoML 其实是一个很典型的开源 3.0 公司。所谓 1.0 可能就是 Red Hat(红帽),卖 support 和卖 license 的模式,2.0 更多是 OpenCore 模式,卖一些 premium 的功能。3. 0 可能就像 Databricks 和云平台强绑定的模式,它的收费和用量可以和云平台分享。
BentoML 有一个开源的框架,可以帮助开发者构建 AI 应用,帮助大模型上线。我们商业化产品也在上个月进行了发布,和云平台有一个非常好的合作。用开源框架构建 AI 应用之后,部署到云平台,我们帮助你做服务(serving ) 和规模化 ( Scale ) 。这样的模式对于我们小公司会更友善一些,因为我们可以和云平台共享客户的收益。
回到最开始开源公司做商业化的问题,我们认为开源产品需要帮助开发者去解决非常棘手问题,也可以顺着这些功能和云平台做一些结合,这样可能会是一个比较好的发展路径。
罗璇:作为 RWKV,基底模型永远都会开源、免费可商用。我们也成立了商业公司,是整个开源生态的一部分,会去做垂类的一些优化。
现阶段大模型这个领網域,大家还是为效果付费,语言模型是 ChatGPT,文生图就是 Midjourney 更多一些,现在买单的基本上都是个人或者企业,做效率提升。未来还会有增量,增量的点在于会有新的计算平台、互联网出来。我觉得会有更多的想象空间在,现阶段还是在效率提升上。
尹一峰:现在大模型越做越小,也越做越强,可能到最后每个人都会想拥有自己的大模型。但问题是,在端上不一定有自己的硬體去跑模型。
有一个商业模式,就是我给你看一下我的模型有多么强大,你用我的这个模型,我帮你来 host,相当于 Infra as Service。Hugging Face 也在做这个事情,我们会帮你 host model,训练完了之后就挂在那里。这样的话,我们有模型,有数据库,然后也有 Infra,就是一条龙服务,不需要去别的地方了。
如果把大模型类比为当年的互联网,下一波创业就类似于当年的互联网 +,互联网加上外卖就有了美团,加上购物以及有了淘宝。
因为互联网是一个具有颠覆性的技术,可以颠覆外卖,也可以颠覆购物。我觉得现在有一个很尖锐的问题,就是我们要找到大模型它到底可以颠覆啥?如果大模型可以颠覆某一个行业的话,这里是可以出巨头的。如果找不到这个可以颠覆的东西,找到可以增量的东西,至少能挣到钱。
郑屹州:开源要做商业化的一个基础是什么?我会比较想说一件事情,是关于这个开源社区大家是否遵守游戏规则的这个问题。最近我们也有观察到一些 pattern,比如说我们的模型最终都会走到商业开源,但在商业开源之前可能会有一段 research 开放的时间,比如说现在大家见到的 SDXL 0.9 这个版本,还目前是 research 开放,还没有开源,不能商业化。但已经有很多公司不管是国外还是国内,直接拿过来做商业化 API 等等,但这个模型其实并不 ready for 商业化的,这一系列的破坏规则的做法,可能会对整个开源的商业环境产生一定的破坏。
张萌:在开发者工具这个开源生态里,商业化是跑得比较通的一个模式。大家基本上根据席位、根据年付费,在海外是一个非常通顺的商业模式。对我们来说,比较核心的点在于怎么区分开源版和商业版功能的差别。TabbyML 本质上是给开发者提效的工具,那么我们在开源的这个 OpenCore 里,所有对开发者的提效包括补全、问答、一些简单的分析。这些功能都是被开源版本所覆盖,永久免费的一个能力。
在面对企业做商业化,面向 CTO 或者 Engineering Manager 的时候,我们会提供的你团队使用 Tabby 产品之后整体提效的状况,你的整个 workflow,用 language model 做完分析之后,告诉你每个 issue 花了多少时间卡在哪里,这样一些偏生产力协作和 insight 层面的能力,我们会把它作为一个商业版能力,去对企业客户进行额外的收费。
陈昱:大家怎么看开源社区在这一波AI开源创业中扮演的角色?
刘聪:开源是很重要的。现在不管是大模型,还是工具链都有很多新的项目出来。从我们创业公司的角度来说,我们没有足够的工程师能力覆盖到所有用例。举个例子,在我们社区里,对百川模型的支持就是社区开发者做的贡献。从开源大模型的角度来说,这个是非常重要的能力,需要比较透明的协作的方式做这个事情。从工具链的角度来说,在 Open MLL 上,是一个非常百花齐放的过程,很多人用不同的工具,做不同的功能。在开源协作的角度而言,会让这个生态变得发展更好,更 open,这样也会更易于后面的进展。
罗璇:RWKV 一直注重全球的开发者生态,一开始就是全球化的,born in Global。开发者为什么用 RWKV,为什么加入一个开源社区,初衷是非常简单的,觉得你这个项目有意思,有前景,值得投入。这是非常朴素的出发点。
我们希望让 AI 更加平权,最近也在组织一些线上闭门会,包括 Hackthon 的项目,希望让更多的开发者找到更多的资源,我们给开发者提供一些资源对接。
尹一峰:我觉得开源社区应该是催化剂的作用。从 0 到 1 的工作,可能需要一帮特别聪明的大佬关起门来搞。但是从 1 到 100 的工作,扔给开源社区就很快。当时 Llama2 一出大家很惊艳,我们觉得这个模型肯定能在榜首上待几天。真的就只呆了几天就被超越了。
从另一种角度来说,哪怕你在做闭源的工作,开源社区对你也有很大的帮助,因为开源算是闭源的地板。假如公司 A 做了一个闭源的模型,跑出来一看比这个 Llama2 低了 50 分,你直接去 Hugging face 下载 Llama2。无论是从创新上,对商业化公司的影响上,都起到了一个加速的作用。所以哪怕开源社区现在商业化上多多少少都会面临一些问题,但是这个事情真的是值得去做的。
郑屹州:不知道大家有没有看过黏菌寻找食物的视频,我想到一个比方,开源社区有点像一团黏菌。虽然黏菌是一个个体,但是我们可以把它比喻成群体。一开始方向是特别发散的,这个群体在四处探索不同的方向,逐渐扩散。这时候大家都没有明确的凝聚方向,但是只要有一个点接触到了食物,拿到了最终目标,很快其他路径会退化,会有一条非常粗的主干直接连向那个目标。开源社区在这个地方扮演了探索的过程。黏菌即便抵达了一个食物,大量的主干形成以后,还会有非常多的枝干去探索其他的地方,去找到更多的食物。
开源社区可以避免发生「局部最优化」的状况。Transformer 是不是局部最优,我们现在还没有答案;RNN 是不是下一个答案我们也不知道。但是现在因为开源社区的存在,会有多个枝干在做不同的探索,有意义的枝干上面都会形成一股力量,在这个枝干上面更好做发展。这是我看到开源社区在这个时代最大的意义,让技术多样,不至于陷入局部最优,最终卡死。
黏菌走迷宫|图片来源:Google
张萌:开源社区的存在,是开源项目从商业上的角度本质区别于其他所有商业模式的一个核心点。开源社区使得潜在用户,即使是不愿意付费的用户,都有机会变成一个社区的 contributor ( 贡献者),产生价值。
举一个例子,大家可能都做过国内互联网大厂的生意,国内互联网大厂基本是不太有付费意愿的客户群体,我们很难在他身上赚到钱。但是客观行为上,国内互联网大厂有技术能力,也有技术意愿去使用先进的开源生产力工具。
我们在策略上,从一开始就不指望从互联网大厂赚到钱,而是通过他们的使用,把他们 on board 进来,让他们作为社区的参与者,真正能够把 Tabby 这样产品在自己内部用起来,有机会成为这个社区的 contributor,然后从本质上就把这个商业模式的路拓宽了很多。
所以做开源商业化的时候,不得不去做的一个 engagement strategy 的判断就是,当一个客户显然不会付费的时候,我们的主要目标就是把它变成社区的 contributor。
开源无国界,但有语言壁垒
陈昱:最后谈一个话题,大家都知道开源无国界,在座的嘉宾在做开源社区时都有全球化的目标,开源项目怎么做好全球化?中国和海外开源的氛围有什么不一样?
刘聪:非常同意开源就是一个无国界的事情。开源軟體可能是要分两块,一块是基础设施相关的开源軟體,一块是事务性的开源軟體,这个 Panel 我们可能更多谈到基础设施的开源軟體。
基础设施的开发軟體,中国创业者或者开发者是有一定优势的。因为从互联网公司的角度,我们的用户量更多,并发和遇到困难的场景,比海外刚起步的开源项目更复杂。
我其实很建议国内的开发者,或者创业者,从一开始就去做全球的开发者社区,而不是专注中文开发者社区。其实海外的开发者也想要用我们中国的创业者、基础设施开发者创建的基础軟體,但是因为语言原因而错过,我觉得是非常可惜的。
罗璇:Stable Diffusion 开源以后,国内开源热情就非常高了。我觉得国内对开源是非常有热情的,只是过去没有一个很好的闭环或者产品,或者是生态上的商业。现在 RWKV 在国内开发者也很多,在国内 QQ 群开发者也超过一万人了。
商业公司现在的开源是另外一条路,不会把最好的模型开源出来,或者有些商业公司发现自己的模型落后了,会把模型开源出来。我觉得这是接下来会发生的事情。我们更多要跳出时间和空间的约束,想想未来三到五年,AI 会发生什么变化。
尹一峰:做开源模型的人能很容易把模型放上去,下模型的人把它下下来,这样很容易形成社区。但是社区又有一些障碍和分界线。Stable Diffusion 开源后,之所以全世界都在用,很大程度上是因为图谁都能看得懂。
如果是语言模型可能会有语言障碍,英语(社区)会更多做英语模型,中文(社区)会更容易去做中文模型。Llama2 之所以这么火可能也是沾了英语的光,因为全世界都会说英语。我觉得这一方面也是会造成山头主义。如果要做国际化,我觉得最大问题是要打通语言壁垒。第一点,让别人学中文;第二点,自己的模型多放一点语言进去。
郑屹州:中国其实是开源社区特别重要的贡献者。举一个例子,Stable Diffusion 的 Dpmpp 采样算法是清华团队做的,这可以说是最重要的采样算法之一;而我们模型用的 Resnet 层来自微软亚研院的华人研究者。这些对于开源社区是非常核心的贡献。国内的开发者在做很多事情,因为语言的壁垒没有能够真的传到全球社区里面去;在语言模型上可能就更明显,因为模型底层的语言都不一样。
如果我们抛开所有地網域政治话题,就谈语言壁垒会存在多久,可能在近两三年内,这个问题会被各种各样的工具和现在的模型来解决。开源社区培养了一堆开源模型,可以帮助我们把巴别塔重建,让我们能够真正实现跨越语言壁垒去做合作,这是一个我特别兴奋的事情。未来半年或一年,可以看到更多的趋势,让跨语言的开发更多联合起来。
张萌:我们视角里面,中文社区和海外社区最大的问题还是因为互联网环境,导致不得不去做适配的一些事情,导致中文社区平白多了更多的障碍。海外的开源项目很多时候是不感兴趣解决中文社区特有的问题。这些问题只有靠中文开发者自己解决,也只有这样的问题解决了,国内才能够真正在工具链上跟海外保持持平,在解决语言问题后,我相信国内社区会更磅礴发展起来。