今天小編分享的科技經驗:Llama2開源後,國產大模型在卷什麼?,歡迎閱讀。
機器之心原創
作者:姜菁玲
「GPT 還是 Llama2?」過去幾周時間裡,許多大模型應用層的開發者不得不開始集中思考這個問題。
7 月 19 日,開源社區最強的大模型從 Llama 更新到 Llama2。後者在 2 萬億的 token 上進行訓練,訓練數據增加了 40%,在包括推理、編碼、精通性和知識測試等許多外部基準測試中,皆優于其他開源語言模型。
「以前的開源大模型都沒有形成像 Llama 這樣的社區,而 Llama 系列模型正是在這種非常活躍的社區文化下發展起來了,這也直接造成 Llama 系列模型在很多任務上都取得了快速進展,甚至達到了商用标準」,東北大學教授肖桐向機器之心解釋。
GPT-3.5 水平通常被認為是大模型商用的标準線,在 Llama2 模型 70 億、130 億和 700 億三種參數變體中,700 億的版本在 MMLU 和 GSM8K 上接近了 GPT-3.5 的水平。這意味着,作為開源大模型的代表,Llama2 第一次進入了大範圍的商業考量決策之中,開發者們擁有了一個免費、開源且足夠商用的大模型底座。
今年 5 月份,谷歌一位工程師在内部撰文直言稱,當免費的、不受限制的替代品(開源模型)與閉源模型質量相當時,人們不會為受限制的模型付費。
開源與閉源大模型的比賽從此刻開始正式打響。面對開源大模型更低的成本、更快的迭代速度、更高的定制化上限,閉源大模型的壁壘會由什麼構建,成為一個問題。
選擇 Llama2 的原因有很多,成本是最直接的一個。
當前,GPT-4 接口的調用費用為每 1000 個提示請求 token 花費 0.03 美元,完成響應 token 花費 0.06 美元。斯坦福大學研究員在一份論文中估算,如果是中小企業利用 GPT-4 來協助市場工作的話,每個月的成本可能超過 2.1 萬美元。而一個利用 GPT-4 輔助廣告文案生成的公司則表示,它們平均每個月要為 GPT-4 接口支付超過 25 萬美元的成本。
一家國内 AIGC 應用商對機器之心透露,Llama2 雖然目前在技術水平上距離 GPT-4 有一定差距,但是相比于 GPT-4 的高昂成本,團隊仍然選擇了使用 Llama2 作為底層模型,通過在產業中積累的行業數據以及專注在垂直場景進行輸出,能夠彌補一部分技術代差。
「Llama2 出現之後,受打擊最大的應該就是 OpenAI,更多的公司會開始直接基于 Llama2 進行商業化開發,而不再購買它們的 API。」獵豹移動董事長兼 CEO 傅盛稱。
在免費的衝擊下,原先使用 OpenAI 接口的應用層公司會重新思考應該選擇哪個路線,有一部分的市場或許将會被 Llama2 重新洗牌。
不過,這個決策并不完全是成本之上的較量。對于「較好的數據和優化是否能夠彌補如今 Llama2 與 GPT-4 差距」這個問題,消極的聲音占據較多數。
東北大學教授肖桐舉例稱,以機器翻譯場景為例,我們可以用一個類似于 Llama2 這樣的開源模型去做指令微調,雖然翻譯性能達到不錯的程度,但是最終會發現性能上限仍然受限,因為開源大模型的某些能力是在預訓練階段獲得的,所以即使你的指令、任務都是明确的,加上很多數據,但你會發現仍然不容易做到 GPT-4 的效果。
另外,相比于往常的披露,此次 Llama2 開源并沒有對外披露數據層的具體信息,因此復現 Llama2 成為一件受限制的事情。「比如一座樓房,你只能在這個基礎之上去裝修卻做外設,但是你沒有辦法去改變它的鋼混結構,你沒有訓練它底座的權限和能力,所以它的性能很難突破,逼近 GPT-4 這個事情是不可能的」,昆侖萬維 CEO 方漢認為。
一些應用開發者則認為,按照此時 Llama2 與 GPT-4 的水平差距,如果全力押注 Llama2,付出的代價可能同樣很大。「可能你要花很多時間在優化 Prompt 上,而不是產品創新。」
因此,在技術的絕對領先下,GPT-4 仍然會持續吸引到對效果有相對極致的、在成本方面有較大空間的客戶。
當然,比起存量市場的轉移,Llama2 的更大貢獻應該是對整個 AIGC 行業增量市場的拉動。一位 AIGC 業内人士向機器之心表示,Llama2 的開源點燃了很多應用開發者的熱情,在開源後的幾周時間,許多開發者将它看成是移動互聯網黃金時期的階段,希望能找到應用的切口。
正如肖桐所言,Llama2 能夠支持企業和團隊在大模型應用層面低成本、快速地啟動,作出產品和商業模式的原形。
而随着圍繞 Llama 的應用嘗試越來越多,「圍繞 Llama2 的生态的可能會被建立起來,這種遷移是比較難的,因此生态會成為一個飛輪」,傅盛提到,之後或許将迎來一個模型平民化的階段,使用大模型做應用的門檻将不斷降低。昆侖萬維 CEO 方漢則具體指出,在國内,Llama2 對市場的影響将集中在小 B 市場,文生圖、智能寫小說這類場景會迎來更多競争對手。
在過去的幾周時間裡,Llama2 已被接入 Amazon Sagemaker、Databricks、Watsonx.ai、Microsoft Azure、阿裡雲和百度千帆等各種平台,圍繞 Llama2 的生态已經開始發展。
對大部分底層大模型創業公司來說,一條比較明确的商業化路徑是效仿 OpenAI,通過自研大約 GPT-3.5 水平的模型,然後向客戶提供 MaaS 服務,出售底層模型的能力。
在 Llama2 推出之前,開源社區最強的大模型 Llama 在商用許可上具有限制,而 OpenAI 的接口在國内面臨着不确定的監管風險,因此相比于兩者,國產大模型在市場競争中的優勢通常是「可商用」、「數據安全」以及更好的「服務支持」。
Llama2 的釋出削弱了國產大模型創業公司在市場上的競争力。「從許多公開的測試集上,我們可以看到,國内大部分的大模型公司的水平距離 GPT-3.5 仍然有距離」,一位 AI 方向資深投資人稱。也就是說,對于國内的大部分大模型創業公司來說,Llama2 意味着一個價格碾壓(免費)、技術更強以及可以支持商用的競争對手。
對那些自研大模型積累不夠的公司來說,Llama2 產生的打擊則更甚。傅盛認為,「Llama2 将開源的水平提升到了接近 GPT-3.5 的水平。如果說此時你的自研水平遠遠不如 Llama2,那麼意味着可能你之前的工作都白做了。」
對這部分公司來說,當前面臨兩種選擇,一是抛棄自研路線,利用自己此前積累的數據和經驗開始用 Llama2 進行開源模型訓練,二是繼續堅持自研路線,但是需要衡量所付出的時間和金錢成本,以及最終自身能否追趕并超越上快速迭代的開源生态。無論哪種,都是一個艱難的選擇。
Llama2 為開源社區貢獻的新的技術裡程碑,不僅拉高了閉源公司整體的自研門檻,或許還将動搖很大一部分公司「繼續自研」的決心。
「對于很多公司來說,當你自研的大模型沒有辦法去超過 Llama2 後,你會越來越沒有動力去自研模型,會更傾向于站在巨人的肩膀上,這更多是一種心理層面的影響」,面壁智能 CTO 曾國洋說道。
而如果認為自己短期内憑借自研能力無法超過 Llama2 的這部分公司,「很有可能就會去考慮成為端到端的應用公司,利用自己的既有模型結合開源模型,直接向市場提供應用,最後實現數據上的閉環,從而不斷迭代」,上述投資人表示。
不過,對于頭部大模型公司來說,「自研」路線上的搖擺現象概率要低得多。昆侖萬維從 2020 年開始籌備大模型,已經對外推出了成熟可商用的大模型產品。昆侖萬維 CEO 方漢告訴機器之心,目前對于昆侖萬維而言,在技術上更值得期待的是,如何從 GPT-3.5 提升到 GPT-4。「國内已經在牌桌上的大模型公司對如何做到 GPT-3.5 大多已經沒有什麼疑問,但下一步如何做到 GPT-4 仍然需要花大力氣探索,因此 Llama2 在技術上對大廠沒有什麼參考意義」。
同樣已經推出成熟大模型產品的公司面壁智能 CTO 曾國洋持類似觀點。他認為,在技術上 Llama2 最多在一些具體任務上可以起到一些 Benchmark 的作用,但是 Llama2 最值得參考的數據處理層面沒有開源,因此整體在技術上參考意義有限。
從市場競争的角度來看,在國内市場,相比于 Llama2,國内頭部大模型公司擁有更優越的中文表現、更穩定的監管預期、更便利的服務支持以及更近的市場渠道。因此,面對于 Llama2 的免費優勢,能夠做到在性能上更好、模型更加易用的頭部大模型公司,理論上就能夠繼續維持整體優勢。
并且,對于頭部大模型公司來說,在自研路線上投入的沉沒成本遠遠超過中尾部大模型公司,不同自研的路線往往也代表了公司的行業、場景上的側重點,頭部公司有足夠的資金、人才以及驅動力繼續自研。
Llama2 對國内大模型公司的影響将是一個持續的過程。如今全球範圍内 AIGC 行業仍在起步上升階段,并沒有穩定的市場格局。由于底層技術水平仍在早期,中國市場則更加分散,尚未發展起來。全球來看 GPT 的市場份額應當是最大的,而國内目前 Llama2 能夠受影響的市場僅僅只是擔心 GPT 受監管影響、且國產大模型都不适用的這部分客戶,是一個「暫存市場」。
不過,雖然「暫存市場」整體并不大,但在暫存市場中證明自己的模型商業化能力已經成為許多大模型公司的「融資通行證」。上述投資人告訴機器之心,在比較标的的過程中,雖然 Llama2 在技術上起到的參考價值不大(有 GPT-3.5),但是公司如何應對 Llama2 帶來的商業化危機會成為資方較為在意的點。如果說,在這場市場競争中失敗,融不到資,可能就會影響到大模型創業公司的存續問題,在目前的階段,這可能是一個更致命的問題。
無論是 Llama2 瓜分閉源公司的既有市場份額,還是推動整個行業進一步繁榮,「開源 AI 正在取得勝利」這個判斷似乎擁有了更多實證。
這個觀點來自于今年 5 月谷歌一位工程師在内網發布的檔案。在谷歌與 OpenAI 仍在焦灼 AI 軍備競賽之際,這位工程師在檔案中直言:開源派與谷歌和 OpenAI 模型之間的差距正在以驚人的速度縮小,它們将很快對谷歌和 OpenAI 進行超越,我們沒有護城河。
「一家公司不斷在前面推天花板,後面的人不停追趕,雖然它可能會有自己累積的技術優勢,但是别人在追趕它的時候,能看見它已經成功做了什麼,那麼(追趕)就會更容易」,西湖大學張嶽教授對機器之心解釋。
面壁智能 CTO 曾國洋則進一步表示,從目前公開資料所披露的 GPT-4 的具體技術情況,我們發現它并沒有使用一些特别神奇、超越時代的科技,本質上也是用大家都能理解的技術來做拼接組合,最終實現了效果更好。
如果說,領先的閉源模型是确定可追随的,那麼意味着,「長遠來看,閉源大模型并沒有真正的護城河」,曾國洋與張嶽認為。
在商業環境中,一家基于開源模型研發的的垂直 AIGC 產品公司近日告訴機器之心,經過它們的内部驗證,任何閉源模型的更新,它們有信心能夠結合自身的數據和工程化經驗,三個月内在自己垂直的場景中實現差不多的水平。
當然,短期來看領先的閉源模型相較于開源模型,護城河仍然十分清晰。東北大學教授肖桐認為,相較于開源模型,走閉源路線的大廠在人才、組織以及數據三個方面有短時間難以取代的優勢。大廠往往擁有更高密度更高水平的人才,以及有經驗的團隊能夠協調人才和高性能設備,并且能夠擁有其他人無法拿到數據。此外,曾國洋還提到,大廠往往也擁有充足算力。「但長期來說的話,數據和算力各種要素都會慢慢追平」。
在這個過程中,開源模型真正的影響力在于對生态系統的構建。「Llama2 可能會推動大模型上下遊進行整合,一旦解決了規模的問題,成本也将大大下降」,肖桐表示。
雖然目前 Llama2 僅僅可能是大模型開源生态系統的開端,「大家對 Llama2 的能力邊界不是非常清晰,生态系統的形成同樣需要一些時間」。但随着 Llama2 的釋出,開源社區的技術能力被帶上另一個台階,大模型開源社區的力量已經無法被忽視。