今天小編分享的科技經驗:李彥宏說開源模型會越來越落後,為什麼很多人不認同?,歡迎閱讀。
文|甲子光年科技產業智庫,作者|趙健
上周,百度董事長兼 CEO 李彥宏對于開源大模型的一番言論引發了争議。
李彥宏在 Create 2024 百度 AI 開發者大會上表示:" 開源模型會越來越落後。"
李彥宏的解釋是,百度基礎模型文心 4.0 可根據不同需求,在效果、響應速度和推理成本等方面靈活剪裁,生成适應各種場景的精簡模型,并支持精調和 post pretrain。相較于直接使用開源模型,文心 4.0 剪裁出的模型在同等尺寸下表現更佳,而在同等效果下成本更低,因此他預測開源模型将會越來越落後。
但很多 AI 從業者都不太認同這一結論。比如獵豹移動董事長兼 CEO、獵戶星空董事長傅盛很快發視頻反駁,說 " 開源社區将最終戰勝閉源 "。
開源模型到底能否超越閉源模型?這個問題從去年開始就備受争議。
去年 5 月,外媒曾報道谷歌流出一份檔案,主題是 " 我們沒有護城河,OpenAI 也沒有。當我們還在争吵時,開源已經悄悄地搶了我們的飯碗 "。
去年 Meta 發布開源大模型 Llama 2 後,Meta 副總裁、人工智能部門負責人楊立昆(Yann LeCun)表示,Llama 2 将改變大語言模型的市場格局。
人們對于 Llama 系列模型所引領的開源社區備受期待。但直到今天,最新發布的 Llama 3 仍然沒有追上最先進的閉源模型 GPT-4,盡管兩者的差距已經很小了。
「甲子光年」對話了多位 AI 從業者,一個普遍的反饋是,讨論開源好還是閉源好,本身是由立場決定的,也不簡簡單單是一個二元對立的問題。
開源與閉源并非一個技術問題,更多是一個商業模式的問題。然而,大模型當前的發展現狀是,不論是開源還是閉源,都還沒有找到切實可行的商業模式。
所以,未來到底會如何發展呢?
差距沒有拉大,而是在縮小
開源模型與閉源模型到底誰更強?不妨先看一下客觀的數據排名情況。
大模型領網域最權威的榜單是大模型競技場(LLM Arena),采用了國際象棋一直采用了 ELO 積分體系。它的基本規則是,讓用戶向兩個匿名模型(例如 ChatGPT、Claude、Llama)提出任何問題,并投票給回答更好的一個。回答更好的模型将獲得積分,最終的排名由累計積分的高低來确定。Arean ELO 收集了 50 萬人的投票數據。
大模型排行榜,圖片來自 LLM Arena 截圖
在 LLM Arena 榜單上,OpenAI 的 GPT-4 長期霸榜第一。Anthropic 最新發布的 Claude 3 曾短期取代 GPT-4 取得第一名的桂冠,但 OpenAI 很快發布最新版本的 GPT-4 Turbo,重新奪回第一的寶座。
LLM Arena 排名前十的模型基本上被閉源模型壟。能夠擠進前十名榜單的開源模型只有兩個:一是 Meta 上周剛剛發布的 LLama 3 70B,排名第五,也是表現最好的開源模型;二是 "Transformer 八子 " 之一的 Aidan Gomez 創立的 Cohere 近期發布的 Command R+,排名第七。值得一提的是,阿裡發布的開源模型 Qwen1.5-72B-Chat,排名第十二,是國内表現最好的開源模型。
從絕對排名上看,閉源模型仍然遙遙領先開源模型。但若從兩者的差距來看,并非李彥宏所說的越來越大,而是越來越小。
閉源模型與開源模型的差距,圖片來自 X
昆侖萬維董事長兼 CEO 方漢此前曾對「甲子光年」表示,開源模型與閉源模型的差距已經從落後 2 年追到僅落後 4~6 個月了。
什麼因素會影響開源和閉源模型的能力差異?
微博新技術研發負責人張俊林認為,模型能力增長曲線的平滑或陡峭程度比較重要。如果模型能力增長曲線越陡峭(部門時間内,模型各方面能力的增長數量,越快就類似物體運動的 " 加速度 " 越大),則意味着短時間内需要投入越大的計算資源,這種情況下閉源模型相對開源模型是有優勢的,主要是資源優勢導致的模型效果優勢。
反過來,如果模型能力增長曲線越平緩,則意味着開源和閉源模型的差異會越小,追趕速度也越快。這種由模型能力增長曲線陡峭程度決定的開源閉源模型的能力差異,可以稱之為模型能力的 " 加速度差 "。
張俊林認為,往後多看幾年,開源與閉源的能力是縮小還是增大,取決于在 " 合成數據 " 方面的技術進展。如果 " 合成數據 " 技術在未來兩年能獲得突破,則兩者差距是有可能拉大的;如果不能突破,則開源和閉源模型能力會相當。
所以," 合成數據 " 是未來兩年大語言模型最關鍵的決定性的技術,很可能沒有之一。
開源模型的 " 真假開源 "
人們對于開源模型的期待,很大程度上就在于 " 開源 " 兩個字。
開源是軟體行業蓬勃發展的決定性力量。正如 360 集團創始人周鴻祎近期在哈佛大學演講中提到的那樣:" 沒有開源就沒有 Linux,沒有 PHP,沒有 MySQL,甚至沒有互聯網。包括在人工智能的發展上,如果沒有當初谷歌開源 Transformer,就不會有 OpenAI 和 GPT。我們都是受益于開源成長起來的個人和公司。"
但是,這一次的開源模型可能要讓很多開源信徒失望了。
去年 Llama 2 發布後不久,就有批評聲音稱,Meta 其實是在 " 假開源 "。
比如,開源友好型風險投資公司 RedPoint 的董事總經理 Erica Brescia 表示:" 誰能向我解釋一下,如果 Llama 2 實際上沒有使用 OSI(開放源碼計劃)批準的許可證,也不符合 OSD(開放源碼定義),Meta 公司和微軟公司又如何稱 Llama 2 為開放源碼?他們是在故意挑戰 OSS(開放源碼軟體)的定義嗎?"
的确,Llama 2 并沒有遵循上述協定,而是自定義了一套 " 開源規則 ",包括禁止使用 Llama 2 去訓練其它語言模型,如果該模型用于每月用戶超過 7 億的應用程式和服務,則需要獲得 Meta 的特殊許可證。
Llama 2 雖然自稱為開源模型,但僅僅開放了模型權重——也就是訓練之後的參數,但訓練數據、訓練代碼等關鍵信息都未開放。
零一萬物開源負責人林旅強告訴「甲子光年」,現在說的開源模型,對比開源軟體來說,是一種介于閉源與開源的中間狀态,開發者可以在其基礎上做微調、做 RAG,但又無法像開源軟體那樣對模型本身做修改,更無法得到其訓練源數據。
在 " 真開源 " 的開源軟體領網域,一個顯著的特點是軟體源代碼共享,開源社區的開發者不僅可以反饋 Bug,而且可以直接貢獻代碼。
比如,國產開源數據庫 TiDB 就分享過一組數據,在每年更新的 40% 的代碼中,有 40% 是由外部貢獻者貢獻的。
但由于大模型的算法黑盒,僅僅開放模型權重的 " 半開源 ",導致了一個結果:用 Llama 2 的開發者再多,也不會幫助 Meta 提升任何 Llama 3 的能力和 Know-how,Meta 也無法靠 Llama 2 獲取任何的數據飛輪。
Meta 想要訓練更強的 Llama 3,還是只能靠自己團隊内部的人才、數據、GPU 資源來做,還是需要做實驗(比如 Scailing Law)、收集更多的優質數據、建立更大的計算集群。這本質上與 OpenAI 訓練閉源的 GPT-4 無異。
正如李彥宏在百度内部信中所言,開源模型并不能像開源軟體那樣做到 " 眾人拾柴火焰高 "。
今天,很多開源模型都注意到了這個問題。比如谷歌在發布開源模型 Gemma 的時候,谷歌特意将其命名為 " 開放模型(Open Model)" 而非 " 開源模型(Open Source Model)"。谷歌表示:開放模型具有模型權重的免費訪問權限,但使用條款、再分發和變體所有權根據模型的具體使用條款而變化,這些條款可能不基于開源許可證。
昆侖萬維 AI Infra 負責人成誠在知乎上對于開源模型做了以下分級:
僅模型開源(技術報告只列舉了 Evaluation)。主要利好做應用的公司(繼續訓練和微調)和普通用戶(直接部署)
技術報告開源訓練過程。比較詳盡的描述了模型訓練的關鍵細節。利好算法研究。
訓練代碼開源 / 技術報告開源全部細節。包含了數據配比的核心關鍵信息。這些信息價值連城,是原本需要耗費很多 GPU 資源才能得到的 Know-how。
全量訓練數據開源。其他有算力資源的團隊可以基于訓練數據和代碼完全復現該模型。訓練數據可以說是大模型團隊最核心的資產。
數據清洗框架和流程開源。從源頭的原始數據(比如 CC 網頁、PDF 電子書等)到 可訓練的數據的清洗過程也開源, 其他團隊不僅可以基于此清洗框架復現數據預處理過程,還可以通過搜集更多的源(比如基于搜索引擎抓取的全量網頁)來擴展自己的數據規模,得到比原始模型更強的基座模型。
他表示,實際上大部分的模型開源諸如 LLama2、Mistral、Qwen 等,只做到 Level-1, 像 DeepSeek 可以做到 Level-2。 而 Level-4 及以上的開源一個都沒有。至今沒有一家公司開源自己的全部訓練數據和數據清洗代碼,以至于開源模型無法被第三方完整復現。
這樣做的結果是: 掌握着模型進步的核心機密(數據、配比)被大模型公司牢牢掌握在自己手裡,除了大模型公司自己的團隊,沒有任何其他來自開源社區的力量可以幫助其提升下一次訓練模型的能力。
因此,這就回到一個關鍵問題:如果開源不能借助外部力量幫助提升模型性能,為什麼還要開源?
模型開源的意義是什麼?
開源還是閉源,本身并不決定模型性能的高低。閉源模型并非因為閉源而領先,開源模型也并非因為開源而落後。甚至恰恰相反,模型是因為領先才選擇閉源,因為不夠領先不得不選擇開源。
因此,如果一家公司做出了性能很強的模型,它就有可能不再開源了。
比如法國的明星創業公司 Mistral,其開源的最強 7B 模型 Mistral-7B 和首個開源 MoE 模型 8x7B(MMLU 70)是開源社區聲量最大的模型之一。 但是,Mistral 後續訓練的 Mistral-Medium(MMLU-75)、Mistral-Large(MMLU-81) 均是閉源模型。
目前性能最好的閉源模型與性能最好的開源模型都是由大公司所主導,而大公司裡又屬 Meta 的開源決心最大。如果 OpenAI 不開源是從商業回報的角度來考慮,那麼 Meta 選擇開源讓用戶免費試用的目的又是什麼呢?
在上一季度的财報會上,扎克伯格對這件事的回應是,Meta 開源其 AI 技術是出于推動技術創新、提升模型質量、建立行業标準、吸引人才、增加透明度和支持長期戰略的考慮。
具體來說,開源帶來了諸多戰略好處。
首先,開源軟體通常會更安全,更可靠,而且會由于社區提供的持續反饋和審查而變得更高效。這點非常重要,因為安全正是 AI 領網域的最關鍵議題之一。
其次,開源軟體會時常成為行業标準。而當其他企業基于 Meta 的技術棧建立标準時,新創新就會更容易融入 Meta 的產品中。這種微妙的優勢,就是巨大的競争優勢。
再次,開源在開發者中非常受歡迎。因為科技工作者們渴望參與到廣泛采納的開放系統中,這就會讓 Meta 吸引更多頂尖人才,從而在新興技術領網域保持領先地位。同時,由于 Meta 具有獨特的數據和產品集成,開源 Llama 基礎設施并不會削弱 Meta 的核心競争力。
Meta 是大公司中開源決心最大的公司,也是收益最大的公司。盡管訓練大模型需要耗費幾千億美元,但自從 2023 年把業務重心聚焦在開源大模型上以來,Meta 的股價已經上漲了大約 272%。Meta 不僅從開源中收獲了名聲,也收獲了巨大的财務回報。
Meta 股價走勢圖,圖片來自 X
Meta 最新發布的 Llama 3 也是開源模型。除了 8B 與 70B 兩個較小參數的模型,正在訓練中的 Llama 3 400B 大概率也會是開源模型,而且有望成為第一個超越 GPT-4 的開源模型。
閉源 to C,開源 to B
不論開源模型還是閉源模型,都需要找到合适的商業模式。
今天大模型行業逐漸形成的一個趨勢是,閉源模型更傾向做 to C,開源模型更傾向于做 to B。
月之暗面創始人楊植麟曾表示,要想做 to C 領網域的 Super App,就必須用自研(閉源)模型,因為 " 只有自研模型才能在用戶體驗上產生差異化 "。
楊植麟認為,開源模型本質上是一種 to B 的獲客工具,或者是在 Super App 之外的長尾應用,才可能基于開源模型去發揮數據的優勢或場景的優勢。
但開源模型無法構建產品壁壘。比如,在海外有幾百個基于開源擴散模型 Stable Diffusion 的應用出現,但最後其實沒有任何一個跑出來。
其次,無法在開源技術的基礎上通過數據的虹吸效應讓模型持續地優化,因為開源模型本身是分布式部署,沒有一個集中的地方接收數據。
相比之下,開源模型更加适合在 to B 領網域落地。
零一萬物開源負責人林旅強告訴「甲子光年」,toB 是一單一單直接從客戶身上賺錢,提供的不是產品,而是服務和解決方案,而且是一個定制化的服務。做服務是用開源還是閉源?To B 的客戶肯定首選開源模型,因為不僅能省下授權費用,還有更高的定制空間。
開源模型往往被當成一種最便宜的獲得銷售線索的手段。廠商可通過幾十 B 或以下規模的開源模型擴大用戶群體,以獲取銷售線索、證明技術實力。如果客戶有更多定制化需求,模型廠商也可以提供更多的服務。
同時,開源與閉源并非一個單選題,很多公司都采用了開源與閉源雙輪驅動的戰略,比如智譜 AI、百川智能、零一萬物等等。
王小川就認為,從 to B 角度,開源閉源其實都需要。未來 80% 的企業會用到開源的大模型,因為閉源沒有辦法對產品做更好的适配,或者成本特别高,閉源可以給剩下的 20% 提供服務。二者不是競争關系,而是在不同產品中互補的關系。"
不論開源還是閉源,大模型商業化面臨的根本問題是,如何降低推理成本。只有降低了推理成本,大模型才有可能真正大規模落地。
今天,開源與閉源陣營分别有自己的支持者。但如果參考 iOS 與安卓作業系統的發展軌迹來看,彼此之間的良性競争大大促進了產品的迭代與用戶體驗的更新。這才是開閉源之争最終的價值。