今天小編分享的科技經驗:官宣開源新模型!OpenAI終于要摸着DeepSeek過河了,歡迎閱讀。
在暗示推出一款開源模型的一個多月後,OpenAI 似乎準備好「兌現」承諾了。
4 月 1 日,OpenAI CEO 山姆 · 奧特曼(Sam Altman)在社交平台 X(原 Twitter)上公開宣布:OpenAI 計劃在接下來的幾個月内,發布一個強大的、具備推理能力的開放權重(Open-Weight)大模型。
圖 / X
是 DeepSeek-R1 一樣的推理模型?還是集成推理能力的對話模型?這一點還有待揭秘。但至少,如果一切按照計劃推進,這款全新的大模型将是自 GPT-2 以來,OpenAI 首款重新開放權重的大模型。
消息一出,海内外科技媒體迅速跟進,不少中文媒體就以「OpenAI 預告 / 即将發布開源模型」作為标題,一些行業觀察者也将其視為 OpenAI「重新走向開源」的标志性一步。
圖 / Google
畢竟,在 DeepSeek-V3/R1 發布之後開源模型社區變得越發活躍,而 OpenAI 的封閉也顯得越來越格格不入。
但如果你仔細看山姆 · 奧特曼的原話,會發現他并沒有說「open-source」(開源),而是用了一個更謹慎的表述——「open-weight」(開放權重)來作為新模型的「前綴」。
「開放權重」和「開源」可以劃等号嗎?這也引發了不少網友的讨論乃至争論。需要指出的是,所謂「開放權重」,是指模型訓練完成後所得到的參數對外開放,開發者可以基于這些權重進行部署、測試,甚至微調。但它不包含訓練數據、不附帶完整訓練代碼,也不保證無門檻使用。
這與很多人認知中的「開源」——即代碼、數據、方法全面透明、自由使用——明顯還有一段距離。
從這個意義上說,「開放權重」其實更像是一種妥協:保留核心技術壁壘的同時,釋放一些能力給開發者社區。它可以降低模型的使用門檻,但難以滿足真正的可驗證性與可重現性需求。
所以 OpenAI 究竟是重新擁抱開源,還是在用模糊語言重新定義「開放」?某種程度上,這場關于「真開源」還是「假開源」的争議,可能遠比一次模型發布本身更值得關注。
公允地講,OpenAI 新模型「開放權重」的做法其實并不意外。
事實上,包括 DeepSeek、Qwen(阿裡)、LLaMA(Meta)三家被視為開源模型社區的「主力」,在開源策略上雖然各有側重,但核心共同點也都是——開放權重,允許外部開發者直接部署,提供用于推理代碼、微調腳本和評估工具等。
DeepSeek 新聞稿,圖 / DeepSeek
這意味着,開發者可以直接下載模型進行本地部署、微調、做推理服務,而這樣也可以說是大模型「開源」的最低門檻。
從這個角度看,OpenAI 預告發布的新模型采用「開放權重」的做法,正是目前開源模型社區的主流方式。甚至可以說,它在定義上,與今天市面上大多數被稱為「開源」的大模型并無二致。
不過盡管都是開放權重,但實際的開放程度還是各有不同。
以 DeepSeek 為例,它發布的 V2、V3、R1 等模型均開放了權重,還有相應的技術報告。同時,DeepSeek 還采用了限制極少的 MIT 開源協定,允許任何人自由地使用、修改、分發和商業化軟體或模型。這也是很多開發者、廠商喜歡采用 DeepSeek 模型的關鍵之一。
阿裡的 Qwen 模型則在開放權重之外采用了同樣比較寬松的 Apache 2.0 開源協定,允許用戶自由地使用、修改和分發代碼,包括商業用途,僅要求保留原始版權聲明和許可聲明。對于開發者來說,Qwen 系列模型是一個相對成熟且兼具性能與靈活性的選擇。
阿裡稍早前推出的 QVQ-Max 也采用了 Apache 2.0 協定,圖 / Github
相比之下,Meta 的 LLaMA 雖然也開放了模型參數和推理腳本,但其使用協定限制更多。從 LLaMA 2 開始,Meta 采用了更寬松的許可證(LLaMA 3.1 又更開放了一點),但還是需要開發者申請使用,且不能直接用于某些商業應用或發布服務,這也導致其在開源社區的熱度雖高,但落地場景有所受限。
總的來說,三者雖然都自稱「開源模型」,但如果把「開源」拆解為幾個維度來看——開放權重、開放代碼、開放數據、開放訓練過程、開放使用權限——你會發現,沒有一家是「全開」的。沒有公開完整的訓練數據,也沒有提供可復現的訓練代碼——換句話說,你可以用它的模型,但你無法從零重建它。
從這個角度看,OpenAI 即将發布的模型雖然尚未公布開源的具體策略,但如果也開放模型權重和推理代碼,支持開發本地部署。那麼從行業實踐标準來看,它完全可以被歸入今天「開源模型」的範疇之中。
盡管很多人以為 OpenAI 是以開源起家,但實際上至少在 GPT-2 時期,OpenAI 就有了「閉源路線」的打算。
2019 年初 GPT-2 發布,OpenAI 開始以「惡意使用風險」的名義拒絕公開的代碼,但在外界一致認為 OpenAI「誇大風險」的輿論下,他們才在 2019 年底公開滿血版 15 億參數的 GPT-2。但不論如何,從 GPT-3 開始,OpenAI 徹底走上閉源路線,不再公開權重、代碼或訓練數據。
因此,這一次「重新開放」,也可以視為 OpenAI 對社區釋放出的一個信号。但需要明确的是,從山姆 · 奧特曼采用「open-weight」的字眼來看,OpenAI 新模型大概率将和今天的 DeepSeek、Qwen、LLaMA 一樣:開放模型權重與推理代碼,但不包括訓練數據或完整的訓練代碼。
圖 / OpenAI
不過還是要考慮 OpenAI 采用的開源許可類型。如果 OpenAI 的新模型和 Qwen 系列一樣采用較為主流的 Apache 2.0 開源許可,對于大部分開發者來說可能就沒有影響,開發者同樣可以基于權重進行本地部署、推理服務,甚至進行微調适配,只是模型本身的訓練依舊是個「黑盒」。
另外值得期待的是,山姆 · 奧特曼在今年 2 月就暗示過 OpenAI 開源模型的方向将是「o3-mini 級别」與「手機端側級别」其中之一。結合最新推文中提到的「powerful new open-weight model with reasoning」,基本可以推斷出 OpenAI 在開源路線上最終選擇了一個「o3-mini 級别」模型來打開局面。
這也可以理解,今時今日推理能力已經是大模型發展的共識,也是外界關注的重點,OpenAI 如果希望借由「開源」模型重回開源社區,或者是鞏固自己的行業地位,推出一個「o3-mini 級别」的開源模型都是更有效的選擇。、
當然,OpenAI 已經開始在舊金山、歐洲和亞太地區組織開發者預覽活動,邀請開發者提前試用模型原型,并收集反饋。或許在接下來的一段時間内,我們還會聽到、看到更多關于 OpenAI 開源新模型的消息。
對于 OpenAI 來說,這次重返開源社區的意義,遠不止發布一個模型那麼簡單。
過去兩年,開源模型生态幾乎是在沒有 OpenAI 參與的情況下迅速繁榮了起來。Meta、Mistral、Qwen、DeepSeek 輪番上場,一邊打造模型,一邊打造生态,甚至逐漸形成了一個規模龐大的開源模型生态。
尤其在 DeepSeek-V3/R1 之後,越來越多硬體、軟體廠商加入開源模型的生态之中,徹底放棄了自主訓練大模型的路徑,專心投入到模型微調、應用落地等方面。
對于 OpenAI 來說,這無疑是一種潛在的「威脅」,就像曾經 Android(開源)生态對于 iOS 的威脅。這也就不難理解為什麼山姆 · 奧特曼會承認,「OpenAI 的閉源策略站在了錯誤的一邊。」
但 OpenAI 畢竟是 OpenA,GPT/o 系列模型的領先也毋庸置疑,而它即将發布的開源模型,或許也會改變整個開源模型社區。