今天小編分享的科技經驗:中國開源大模型們紛紛商用免費,這步走對了,歡迎閱讀。
在中國對生成式模型的監管落地後第二天,在目前最強開源模型 LLaMA 再傳出即将允許商用,和 GPT4 的秘方進一步被 " 洩露 " 之際,全球開發社區裡最受認可的國產開源大模型 ChatGLM 宣布了一個重要決定:
其最新單卡可運行的模型 ChatGLM2-6B,開放給企業用戶免費商用了。
這個消息淹沒在 Claude2 的發布,馬斯克 xAI 的成立等遠方的新聞中,缺少讨論。但它其實是中國基礎模型開源進程的又一個重要時刻。
7 月 14 日晚間,智譜 AI 和清華 KEG 發布公告,稱為了更好地支持國產大模型開源生态,經智譜 AI 及清華 KEG 實驗室決定,自即日起 ChatGLM-6B 和 ChatGLM2-6B 權重對學術研究完全開放,并且在完成企業登記獲得授權後,允許免費商業使用。公告提供了企業登記入口,需要的信息只有姓名,國家,郵箱,機構,用途和要申請的模型(ChatGLM-6B 或 ChatGLM2-6B)。
據公告,自 6 月 25 日發布 ChatGLM2-6B 後,不到一個月這個模型在 Huggingface 上的下載量已經先後超過了 120 萬。
根據智譜 AI 的官網,GLM2 不限實例 + 不限推理或微調工具包的私有化報價此前是一年 30 萬。而據一名在公告發布前剛剛向智譜問價的開發者稱,對方回復可以稍等," 會降價 "。
" 然後直接免費了。" 他說。
但事實上這并不突然。
根據近日報道,Meta 準備發布其人工智能模型 LLaMA 的商用版本。而前不久使用了與原始 LLaMA 完全相同的預處理步驟和訓練超參數的開源模型 OpenLLaMA 已經率先宣布徹底開源商用。同時,此前曾挖到谷歌那封 " 沒有護城河 " 内部信的作者,又 " 揭秘 " 了 GPT-4 的工程和訓練細節,業内的讨論中有不少從業者傾向于相信它的可靠性。
一切都在劇烈演進,基礎模型的飛速進化同時意味着越來越少的秘密:
一方面是大模型本身并沒有那麼神秘,從最初驚豔所有人的光環中走出後,更多人會意識到這點;同時,幾個主要公司之間頻繁的技術核心人才流轉,最終也會讓秘密不剩多少;而更重要的,就是開源社區的驚人能量,眾多的聰明才智在基于開源社區對模型進行優化,這種長久的後勁是閉源模型達不到的,而這些能力最終會組合到一起。這幾個月開源社區就已經出現了讓任何人都可以對 LLaMa 做指令調優的斯坦福 Alpaca,100 美元就能訓練并看到各類模型匯聚一起的 GPT4All,性能堪比 LLaMA 的阿聯酋大模型 Falcon,更高質量的數據集 Redpajama,以及像 OpenLLaMA 這類 " 破解 " 模型們。
而最近的這次 " 揭秘 ",也是讓很多人覺得 GPT-4 不公開并不是安全考量,而是太容易被學會—— MoE 模型架構等傳言都有一些讓人冷靜下來的意味。于是看起來一個重要的共識已經在形成,那就是模型們在某一個階段裡取得的任何成績都無法成為護城河。因此對于那些最受矚目和最受歡迎的開源基礎模型來說,允許商用許可就是必須做的事情,因為這樣會更進一步吸引開發者,讓這些聰明才智基于它的生态生長。
這也意味着很多基于 "LLaMa 很難允許商用 ",以及 " 開源模型接近 GPT4 都是被媒體炒作出來的 " 短期出發點的分析,長期來看沒有必要了。
對于模型提供者,這就需要他們快速調整自己的策略。不僅是開源與否上不要糾結,免費商用甚至也要夠快夠果斷。剛剛把最新的 6B 版本模型免費商用的智譜就是個典型例子。從最初觊觎已久終于找到機會工程化,做出 130B 的基座版本模型,到發現 6B 版本的能力甚至可以做到接近老的千億模型版本,看到一個可以在自己電腦上安裝的模型能吸引的開源社區關注如此之多,智譜其實一直在根據變化調整。
據知情人士稱,今年 2 月智譜就曾想發布自己的模型,這更像 OpenAI 的路線。但後來各種原因選擇開源。而在開源後的表現以及開源社區的進展讓團隊不少人改變思路。3 月 14 日發布後,3 月 16 日就登上了 GitHub 的榜單第一,後面連續十多天在 HuggingFace 的熱門榜上排名第一。
據内部人士稱,這種迅速獲得的認可讓團隊内部感到十分震撼。
而接近 ChatGLM 技術負責人唐傑的人稱,在開源後他在内部表示,更多的開源是為了讓中國的科學家和產業界對大語言模型的訓練和運行的機理更加了解,而不是就簡單把一個别人的模型拿來微調一下。這是開源的要義。
而未來幾個月注定會有越來越多的模型向免費商用進發。
其實只要想明白今天生成式人工智能到底改變了什麼也會看得更明白:
今天被大模型強化的人工智能,不是要代替人,而是取代過往那種人與機器的互動。過往基于算力的付費模式本質上都可以理解為建立在對人與機器互動的壟斷之上的生意,而大模型就是用所有人都會的自然語言方式打破過去一部分算力精英對人與機器互動的壟斷,讓所有人都能參與進來。
而開源的邏輯顯然更符合這個趨勢。
" 如果在幾個小時内,就能在消費級硬體上微調出一個個性化的語言模型,這件事的意義就太重大了。尤其是,它還可以實時整合許多最新的、多樣化的知識。" 那篇谷歌内部的《沒有護城河》裡寫到。
一名使用過多個開源大模型進行開發的技術負責人對我說,不是所有人都有必要重新訓練模型,但大部分要使用模型的開發者有極強意願做各種優化方案,而最終它們事實上會是集中在為一個或少數幾個開源模型做優化。
于是,當閉源的模型與開源生态注定會越來越多的在解決同樣的問題時,閉源用一種大力出奇迹的方式證明路線可能性和天花板之後,開源會真正把它變得易用和可用,在大模型的技術原理越來越沒有秘密的趨勢下,開源的吸引力會繼續變強。而開源社區圍繞誰的開源模型進行建設就成了關鍵,提供免費商用是争奪這個核心角色的關鍵。
目前國產免費商業授權的基礎模型也有了一定數量,其中除了智譜,百川智能使用了 1.4 萬億 token 訓練的的 Baichuan 13B 模型也是商用免費許可,許多開發者在智譜和百川之間做着對比,而免費商用後,對比的效果會更直接準确有意義。
這些國產模型距離全球頂尖的模型水平仍有不少距離,仔細關注這些團隊會知道這些開發團隊對此是心知肚明的。而商業可用開源可以讓國產模型進一步擺脫只論 benchmark 評分的階段,進入了是騾子是馬拉出來溜溜的階段,真正的具體的不同的場景,到底推理表現如何,災難遺忘的問題如何解決,現實環境數據飛輪啟動以後是否能提速追逐,将是每個人都能實實在在看到的。
而最終真的憑此吸引來的生态,才是真正的護城河。