今天小編分享的科技經驗:開源大模型領網域最重要的玩家們,在關心/擔心什麼,歡迎閱讀。
開源模型與閉源模型,正成為兩股并行的力量。
從 2 月份 Meta 發布的 Llama,到 3 月份斯坦福大學微調 Llama 後發布的 Alpaca,再到 5 月份出現的 Falcon,世界各地的開源模型在「内卷」中快速進步。
7 月 18 日,Llama2 的出現,更是直接讓大模型的競争格局變天了。
開源模型作為大模型領網域的「地板」,Llama2 開源且有條件地開放了商業使用後,很多「水平有限」的大模型還沒商用,就已過時。「接下來,會有一大批人用自己的數據訓練這個模型,從 Bert、到Llama系列,每一個強大的基座模型被放到開源社區後,都會有一大波寒武紀生命大爆發的現象。」
見過「歷史」的尹一峰(Hugging Face 工程師)認為,「模型每天都在變化,随時會被更新掉,但是建立很好的數據集,能讓你接下來很長一段時間受用。」
然而,一個不常被讨論和關注的事實是:「現在開源社區用的數據都是 ChatGPT 對話的數據」,RWKV 羅璇說,「這是很大的問題,數據不會開源,而開源社區應該更關注數據的建立」。
數據的瓶頸一旦被破除,開源社區可以發揮極佳的組織優勢,在大模型能力上接近甚至超過閉源大模型。比如,在 AI 編程場景,開源遙遙領先。對于開源社區而言,沒有明顯的編程數據劣勢,很多超越了閉源模型在 AI 編程場景的質量。
另一方面,開源模型,企業客戶用起來放心。相比閉源大模型的黑箱,「透明化的文章都出來了,代碼也發出來了,用起來你放心,知道裡面有什麼」。像 Llama2 這樣的開源模型,公布了訓練數據、方法、标注等細節。
7 月 23 日,在極客公園主辦的 AGI Playground 大會上,來自 Hugging Face、RWKV、Stability AI 等幾家知名開源大模型公司的從業者,分享了在這波 AI 浪潮中,開源模型的優勢,以及未來的發展趨勢。
本場圓桌嘉賓簡介(從左到右依次為):
陳昱:雲啟資本 合夥人,圓桌主持人。雲啟長期關注 AI 技術發展和產業迭代,在早期領投了 PingCAP、Ziliiz、Jina AI、RisingWave、TabbyML 等開源公司和大模型公司 MiniMax。
劉聰:BentoML 亞太區負責人。BentoML 為開發者和企業提供構建部署和擴展 AI 應用程式的能力,其開源項目已經有上千家海外公司在使用。
羅璇:RWKV、Syrius 炬星 聯合創始人。RWKV 是一個開源大模型,開源可商用,其最大特點是,采用了一種新的模型架構,計算效率遠比 Transformer 更高。同時,RWKV 也是全球的開發者社區,在 Github 上有兩百多個項目。
尹一峰:Hugging Face 機器學習工程師。Hugging Face 是一個專門針對機器學習的開源平台和社區。
鄭屹州:Stability AI 技術產品總監。Stability AI 主要做開源的基礎模型,其中最為熟知的是 Stable Diffusion。
張萌:TabbyML 創始人。TabbyML 的業務是做開源 AI coding 助理的解決方案。
開源模型最應該關注數
陳昱:無論是 RWKV,還是Stable Diffusion,都有自己的開源模型。大廠像 Meta 上周剛發布了 Llama2。怎麼看開源模型或者開放模型這件事情?它會不會對 OpenAI 或者 Google 的閉源模型帶來一些衝擊?
劉聰:我們是幫助大模型上線的一家公司,最近海外客戶的需求變化很快,從一開始 Llama-based,然後 Falcon-based,最近很多客戶又讓我們幫忙上線 Llama 2。
我們感覺開源的模型能力變得越來越好,但還是限于私有化部署以及商業公司内部的一些用例。普适化的用例可能還是依賴 OpenAI 這種大模型的能力。
羅璇:為什麼 OpenAI 不開源,我之前也問過陸奇老師這個問題,他是擔心開源會導致一些人把它用到壞的地方。閉源有可能更安全,但是我們認為,閉源是閉不住的,因為實際沒有門檻,現在 Llama 也開源了更好的模型。開源可能是真正讓大家都能夠普惠地用到未來 AI 技術的方向。
我們開源的初衷也很簡單,我們認為 OpenAI 的閉源違背了它的初衷,所以我們從 2020 年開始開源,也得到了像 Stability AI 和 Hugging Face 的支持。
其實現在很多商業公司也開始開源,但實際上是把一些效果比較差的模型開源,真正好的模型并不會開源,而且數據不會開源,數據是大家要關注的問題。現在大家開源社區用的數據都是ChatGPT對話的數據,這個是很大的問題。我認為開源社區應該更關注數據的建立,也希望所有的開源社區一起做這個事情。
尹一峰:從當年的 BERT 到 Llama,Falcon 到現在的 Llama2,每一次有這麼強大的基礎模型之後,都會有一大批人用自己的數據去微調這個模型,導致每一次有這麼一個強大的基座模型被放到開源社區之後,就會有一大波寒武紀生命大爆發一樣的現象。這個現象被命名為「The Llama Moment」。
第一,這一定會對 OpenAI 和大廠產生影響,因為開源在不斷在能力上接近閉源大模型。而且開源最大的優勢是透明化的,文章都寫出來了,代碼也發出來了,用起來你放心,知道裡面有什麼。但是閉源的大模型有些事情你不敢相信。
第二,其實最重要的東西還是數據,因為 Llama1 出來之後你去微調它一下,Llama2 出來你再去微調它一下,其實可以用同一批數據。模型這個東西每一天都在變化,時不時就會被更新掉,但是建立一個很好的數據集,能讓你接下來很長一段時間受用。
鄭屹州:我從兩個角度看這個東西。首先,基礎模型可以看成生產工具,這個生產工具到底在誰的手裡,在不同的人手裡會有什麼不同的效果。
如果在大公司,作為閉源的基礎模型,讓大量的人使用生產工具自己發展,這樣會讓這個生產工具變得更高效,比如我們現在看到的 GPT-4。這樣的模型會持續存在,并且對于很多直接 C 端的應用、或者不是特别 critical(嚴肅的)的應用非常有意義,這種比較好的性能也是大家會永遠追求的東西。
開源模型是公有的生產工具,大家都拿到自己的手裡,它相對比較分散,沒有那麼集中的資源,大家在上面做各種各樣不同的事情,用力的方向也不太一樣。好處是生态會變得特别繁榮,這種繁榮的生态裡可以看到很多不同的東西。
模型在這個時代不單單是生產工具,它可以是你表達的渠道,是你思想的反映。如果是閉源模型,那這個模型不屬于你,而開源可以讓你用屬于自己的模型。不管 Stable Diffusion,創造者用他自己的畫風定制模型,做符合自己表達習慣的模型,還是像文本,我把我的思想,我之前的聊天記錄,各種各樣的信息喂到這個模型裡。因為這個模型屬于我,我不用擔心數據所有權的問題,也不擔心自己的想法會不會洩露出去,在這上面定制的一個模型是自己思想的反映。
想象一個全閉源的世界,如果你不擁有自己的模型,當未來真的走到了 AGI 時代,你怎麼擁有自己的思想,怎麼擁有自己能夠 embody(象征)自己的一個模型呢?
張萌:現在開源模型和閉源模型在質量上有差異,但 AI 編程這個場景非常有意思。它是少數社區視角或者研究機構視角,在面對大廠像 OpenAI 或者 Google 這樣的超級研究機構時,沒有顯著的數據劣勢(的場景)。這也是為什麼過去 3 到 6 個月裡,除了常規的語言模型之外,coding 場景在社區層面發展得非常快,像 CodeGen2.5、WizardCoder、Phi-1 這樣的模型都紛紛其實超越了這幾個閉源模型在 coding 這個場景上的質量。
這是(我們公司)TabbyML 為什麼在第一天就決定做開源很重要的原因,當這個生态相對多元,或者模型本身快速被變成标品。我們預期未來生态會比較多元,大家作為開發者工具部署的時候會有很多種選項。而且開發者場景裡,開源本身就是在商業化獲客角度非常理想的選項。在未來,尤其是 coding 這個場景,因為下遊的用例太多種多樣了,所以我們相信它會是一個開源模型主導,閉源模型很難追得上的狀态。
開源模型越來越小,越來越好
陳昱:AI開源這個東西也是過去一年才火熱的,大家有沒有印象特别深刻的項目或者标志性的事件?
劉聰:标志性事件比較重要的是,當 Falcon 最開始發布的時候要收你 10% 的 royalty(使用費)。他說他是一個開源模型,但收你 10% 的 royalty。最後社區和公眾對這個事情的反應很大,Falcon 最後又把這個東西去掉,完全改成 apache 兼容的 license。但是最近 Llama2 發布之後,license 裡有一個商用條款,但是大家好像都沒有再讨論這個事情,因為在他的條款裡明确表示——如果你的月活超過 7 億,你需要再找 Facebook 要 grant(授權),而且他沒有具體寫出這個 grant 到底是什麼,我覺得這是開源社區需要急需解決的,大模型的開源 license。
羅璇:關于 license 這個事情,因為我們一直都是 apache 2.0 開源可商用的,我認為 Llama 還是給自己留了一些空間,Meta 畢竟是一家商業公司,我了解到他還是希望通過 Llama2 能夠拉近更多的開發資源、開發者生态做元宇宙那塊的事情。
我更想聊的是另外一個話題,我希望大家更關注在端側,在終端上,比如手機、電腦、機器人、XR 上面跑的大模型,像海外上有開發者做了 Llama.CPP,也有人幫我們做 RWKV.cpp,這個是跟開發者和更多的創業者更相關的事情。只要在終端上能夠跑大模型,整個對算力的需求,包括對進入的門檻拉了很低,這是非常好的事情。
另外一方面,我發現近期很多開源社區目标越來越明确,這是非常好的事情。在開源的生态,跟閉源的商業生态如果要做競争,目标明确、路徑明确以及執行力強,這是非常重要的事情。
尹一峰:最近最火的項目就是 Llama2,但是在 Llama2 這方面能看到一個趨勢,現在在 70B 左右的模型已經在很多方面能跟 175B 的 OpenAI 的閉源模型可以拼一拼,這應該是一個趨勢。
首先,OpenAI 的模型 2021 年就訓練完了,有很多這兩年出現的新技術、新架構他沒有加進去。第二,像 Llama 這樣的模型有這幾年的技術經驗積累,可以讓一個小的模型做到之前大的模型才可以做到的事情。我覺得之後的趨勢:可能強大到一定程度的模型,比如 100 分的模型,可能從 70B 降到 50B 也可以做到 100 分,最後可能 13B 也可以做到 100 分,最後模型越做越小,硬體越做越強大,很快就可以做到端了,等它到了端上之後 To C 的應用就可以做起來了。這也是我目前看到在商業化上面,在模型技術上面的趨勢。
鄭屹州:我現在觀察到的一個非常有意思的現象是從 Stable Diffusion 開始,開源社區的參與者的 profile(背景)發生了變化。之前的開源社區參與者,特别是 ML(機器學習)相關的開源社區參與者,大多應該都是 ML Engineer 或者是工程師,非常非常技術導向的人。
但 SD(Stable Diffusion)可能是一個爆發點,開源社區的參與者裡開始出現:大量以興趣為驅動的人和很多草根研究者,有很多本身不是 ML(機器學習)領網域但有一定研究能力的人進來。這樣豐富的社區就開始湧現,比如剛才提到端上的部署,Llama.cpp、ExLlama,這些全都是開源社區自己做出來的。當社區開始變得更跨界,社區的範圍變得更廣,是現在 AGI 時代或者走向 AGI 的時代裡面,看到的一個比較有趣的 pattern。
張萌:我們作為語言模型的應用層,特别關注的一點就是開源大語言模型的 serving layer(服務部署層)。我分享兩個我們比較關注的項目,一個是 Hugging Face 的 text generation inference,它現在是一個工程化非常好,支持、可觀測性都做得非常完善的項目,我覺得已經接近于現在開源大語言模型 serving 的實施标準,它關注度也非常高。
另外有一個比較新一點的叫 vllm.ai,是伯克利的 Sky Computing Lab 在做的項目。讓人驚訝的是他們應該也是打算在全方位競争 serving layer,他們的特點是通過内存分頁應用到 attention 的想法,去更容易的做 continuous patching,更容易去做吞吐量的提升。我們希望這些 serving layer 競争的格局能夠比較良性競争,我們在應用層的角度就可以得到更好的開發者體驗。
開源社區與商業化
陳昱:剛才大家提到了很多商業化的點,在大模型時代,如果真正要做好商業化,前提是什麼?有什麼好的商業模式?以及作為一個開源公司,内部怎麼平衡自己的商業化版本和開源版本?
劉聰:我簡單從 BentoML 的角度來回答這個問題。BentoML 其實是一個很典型的開源 3.0 公司。所謂 1.0 可能就是 Red Hat(紅帽),賣 support 和賣 license 的模式,2.0 更多是 OpenCore 模式,賣一些 premium 的功能。3. 0 可能就像 Databricks 和雲平台強綁定的模式,它的收費和用量可以和雲平台分享。
BentoML 有一個開源的框架,可以幫助開發者構建 AI 應用,幫助大模型上線。我們商業化產品也在上個月進行了發布,和雲平台有一個非常好的合作。用開源框架構建 AI 應用之後,部署到雲平台,我們幫助你做服務(serving ) 和規模化 ( Scale ) 。這樣的模式對于我們小公司會更友善一些,因為我們可以和雲平台共享客戶的收益。
回到最開始開源公司做商業化的問題,我們認為開源產品需要幫助開發者去解決非常棘手問題,也可以順着這些功能和雲平台做一些結合,這樣可能會是一個比較好的發展路徑。
羅璇:作為 RWKV,基底模型永遠都會開源、免費可商用。我們也成立了商業公司,是整個開源生态的一部分,會去做垂類的一些優化。
現階段大模型這個領網域,大家還是為效果付費,語言模型是 ChatGPT,文生圖就是 Midjourney 更多一些,現在買單的基本上都是個人或者企業,做效率提升。未來還會有增量,增量的點在于會有新的計算平台、互聯網出來。我覺得會有更多的想象空間在,現階段還是在效率提升上。
尹一峰:現在大模型越做越小,也越做越強,可能到最後每個人都會想擁有自己的大模型。但問題是,在端上不一定有自己的硬體去跑模型。
有一個商業模式,就是我給你看一下我的模型有多麼強大,你用我的這個模型,我幫你來 host,相當于 Infra as Service。Hugging Face 也在做這個事情,我們會幫你 host model,訓練完了之後就挂在那裡。這樣的話,我們有模型,有數據庫,然後也有 Infra,就是一條龍服務,不需要去别的地方了。
如果把大模型類比為當年的互聯網,下一波創業就類似于當年的互聯網 +,互聯網加上外賣就有了美團,加上購物以及有了淘寶。
因為互聯網是一個具有颠覆性的技術,可以颠覆外賣,也可以颠覆購物。我覺得現在有一個很尖銳的問題,就是我們要找到大模型它到底可以颠覆啥?如果大模型可以颠覆某一個行業的話,這裡是可以出巨頭的。如果找不到這個可以颠覆的東西,找到可以增量的東西,至少能掙到錢。
鄭屹州:開源要做商業化的一個基礎是什麼?我會比較想說一件事情,是關于這個開源社區大家是否遵守遊戲規則的這個問題。最近我們也有觀察到一些 pattern,比如說我們的模型最終都會走到商業開源,但在商業開源之前可能會有一段 research 開放的時間,比如說現在大家見到的 SDXL 0.9 這個版本,還目前是 research 開放,還沒有開源,不能商業化。但已經有很多公司不管是國外還是國内,直接拿過來做商業化 API 等等,但這個模型其實并不 ready for 商業化的,這一系列的破壞規則的做法,可能會對整個開源的商業環境產生一定的破壞。
張萌:在開發者工具這個開源生态裡,商業化是跑得比較通的一個模式。大家基本上根據席位、根據年付費,在海外是一個非常通順的商業模式。對我們來說,比較核心的點在于怎麼區分開源版和商業版功能的差别。TabbyML 本質上是給開發者提效的工具,那麼我們在開源的這個 OpenCore 裡,所有對開發者的提效包括補全、問答、一些簡單的分析。這些功能都是被開源版本所覆蓋,永久免費的一個能力。
在面對企業做商業化,面向 CTO 或者 Engineering Manager 的時候,我們會提供的你團隊使用 Tabby 產品之後整體提效的狀況,你的整個 workflow,用 language model 做完分析之後,告訴你每個 issue 花了多少時間卡在哪裡,這樣一些偏生產力協作和 insight 層面的能力,我們會把它作為一個商業版能力,去對企業客戶進行額外的收費。
陳昱:大家怎麼看開源社區在這一波AI開源創業中扮演的角色?
劉聰:開源是很重要的。現在不管是大模型,還是工具鏈都有很多新的項目出來。從我們創業公司的角度來說,我們沒有足夠的工程師能力覆蓋到所有用例。舉個例子,在我們社區裡,對百川模型的支持就是社區開發者做的貢獻。從開源大模型的角度來說,這個是非常重要的能力,需要比較透明的協作的方式做這個事情。從工具鏈的角度來說,在 Open MLL 上,是一個非常百花齊放的過程,很多人用不同的工具,做不同的功能。在開源協作的角度而言,會讓這個生态變得發展更好,更 open,這樣也會更易于後面的進展。
羅璇:RWKV 一直注重全球的開發者生态,一開始就是全球化的,born in Global。開發者為什麼用 RWKV,為什麼加入一個開源社區,初衷是非常簡單的,覺得你這個項目有意思,有前景,值得投入。這是非常樸素的出發點。
我們希望讓 AI 更加平權,最近也在組織一些線上閉門會,包括 Hackthon 的項目,希望讓更多的開發者找到更多的資源,我們給開發者提供一些資源對接。
尹一峰:我覺得開源社區應該是催化劑的作用。從 0 到 1 的工作,可能需要一幫特别聰明的大佬關起門來搞。但是從 1 到 100 的工作,扔給開源社區就很快。當時 Llama2 一出大家很驚豔,我們覺得這個模型肯定能在榜首上待幾天。真的就只呆了幾天就被超越了。
從另一種角度來說,哪怕你在做閉源的工作,開源社區對你也有很大的幫助,因為開源算是閉源的地板。假如公司 A 做了一個閉源的模型,跑出來一看比這個 Llama2 低了 50 分,你直接去 Hugging face 下載 Llama2。無論是從創新上,對商業化公司的影響上,都起到了一個加速的作用。所以哪怕開源社區現在商業化上多多少少都會面臨一些問題,但是這個事情真的是值得去做的。
鄭屹州:不知道大家有沒有看過黏菌尋找食物的視頻,我想到一個比方,開源社區有點像一團黏菌。雖然黏菌是一個個體,但是我們可以把它比喻成群體。一開始方向是特别發散的,這個群體在四處探索不同的方向,逐漸擴散。這時候大家都沒有明确的凝聚方向,但是只要有一個點接觸到了食物,拿到了最終目标,很快其他路徑會退化,會有一條非常粗的主幹直接連向那個目标。開源社區在這個地方扮演了探索的過程。黏菌即便抵達了一個食物,大量的主幹形成以後,還會有非常多的枝幹去探索其他的地方,去找到更多的食物。
開源社區可以避免發生「局部最優化」的狀況。Transformer 是不是局部最優,我們現在還沒有答案;RNN 是不是下一個答案我們也不知道。但是現在因為開源社區的存在,會有多個枝幹在做不同的探索,有意義的枝幹上面都會形成一股力量,在這個枝幹上面更好做發展。這是我看到開源社區在這個時代最大的意義,讓技術多樣,不至于陷入局部最優,最終卡死。
黏菌走迷宮|圖片來源:Google
張萌:開源社區的存在,是開源項目從商業上的角度本質區别于其他所有商業模式的一個核心點。開源社區使得潛在用戶,即使是不願意付費的用戶,都有機會變成一個社區的 contributor ( 貢獻者),產生價值。
舉一個例子,大家可能都做過國内互聯網大廠的生意,國内互聯網大廠基本是不太有付費意願的客戶群體,我們很難在他身上賺到錢。但是客觀行為上,國内互聯網大廠有技術能力,也有技術意願去使用先進的開源生產力工具。
我們在策略上,從一開始就不指望從互聯網大廠賺到錢,而是通過他們的使用,把他們 on board 進來,讓他們作為社區的參與者,真正能夠把 Tabby 這樣產品在自己内部用起來,有機會成為這個社區的 contributor,然後從本質上就把這個商業模式的路拓寬了很多。
所以做開源商業化的時候,不得不去做的一個 engagement strategy 的判斷就是,當一個客戶顯然不會付費的時候,我們的主要目标就是把它變成社區的 contributor。
開源無國界,但有語言壁壘
陳昱:最後談一個話題,大家都知道開源無國界,在座的嘉賓在做開源社區時都有全球化的目标,開源項目怎麼做好全球化?中國和海外開源的氛圍有什麼不一樣?
劉聰:非常同意開源就是一個無國界的事情。開源軟體可能是要分兩塊,一塊是基礎設施相關的開源軟體,一塊是事務性的開源軟體,這個 Panel 我們可能更多談到基礎設施的開源軟體。
基礎設施的開發軟體,中國創業者或者開發者是有一定優勢的。因為從互聯網公司的角度,我們的用戶量更多,并發和遇到困難的場景,比海外剛起步的開源項目更復雜。
我其實很建議國内的開發者,或者創業者,從一開始就去做全球的開發者社區,而不是專注中文開發者社區。其實海外的開發者也想要用我們中國的創業者、基礎設施開發者創建的基礎軟體,但是因為語言原因而錯過,我覺得是非常可惜的。
羅璇:Stable Diffusion 開源以後,國内開源熱情就非常高了。我覺得國内對開源是非常有熱情的,只是過去沒有一個很好的閉環或者產品,或者是生态上的商業。現在 RWKV 在國内開發者也很多,在國内 QQ 群開發者也超過一萬人了。
商業公司現在的開源是另外一條路,不會把最好的模型開源出來,或者有些商業公司發現自己的模型落後了,會把模型開源出來。我覺得這是接下來會發生的事情。我們更多要跳出時間和空間的約束,想想未來三到五年,AI 會發生什麼變化。
尹一峰:做開源模型的人能很容易把模型放上去,下模型的人把它下下來,這樣很容易形成社區。但是社區又有一些障礙和分界線。Stable Diffusion 開源後,之所以全世界都在用,很大程度上是因為圖誰都能看得懂。
如果是語言模型可能會有語言障礙,英語(社區)會更多做英語模型,中文(社區)會更容易去做中文模型。Llama2 之所以這麼火可能也是沾了英語的光,因為全世界都會說英語。我覺得這一方面也是會造成山頭主義。如果要做國際化,我覺得最大問題是要打通語言壁壘。第一點,讓别人學中文;第二點,自己的模型多放一點語言進去。
鄭屹州:中國其實是開源社區特别重要的貢獻者。舉一個例子,Stable Diffusion 的 Dpmpp 采樣算法是清華團隊做的,這可以說是最重要的采樣算法之一;而我們模型用的 Resnet 層來自微軟亞研院的華人研究者。這些對于開源社區是非常核心的貢獻。國内的開發者在做很多事情,因為語言的壁壘沒有能夠真的傳到全球社區裡面去;在語言模型上可能就更明顯,因為模型底層的語言都不一樣。
如果我們抛開所有地網域政治話題,就談語言壁壘會存在多久,可能在近兩三年内,這個問題會被各種各樣的工具和現在的模型來解決。開源社區培養了一堆開源模型,可以幫助我們把巴别塔重建,讓我們能夠真正實現跨越語言壁壘去做合作,這是一個我特别興奮的事情。未來半年或一年,可以看到更多的趨勢,讓跨語言的開發更多聯合起來。
張萌:我們視角裡面,中文社區和海外社區最大的問題還是因為互聯網環境,導致不得不去做适配的一些事情,導致中文社區平白多了更多的障礙。海外的開源項目很多時候是不感興趣解決中文社區特有的問題。這些問題只有靠中文開發者自己解決,也只有這樣的問題解決了,國内才能夠真正在工具鏈上跟海外保持持平,在解決語言問題後,我相信國内社區會更磅礴發展起來。