今天小編分享的科技經驗:DeepSeek+華為,能不能超越英偉達和Open AI?,歡迎閱讀。
DeepSeek 開源動作仍在持續,引發了 AI 圈又一輪震蕩。
2 月 21 日 12 點,DeepSeek 團隊在 X 平台發布了一段英文内容。簡單解釋一下,其實說的就是:" 從下周開始,我們将開源 5 個代碼倉庫,以完全透明的方式分享我們微小但真誠的進展。"
緊接着在 2 月 24 日,DeepSeek 就開源了首個代碼庫 FlashMLA。
用咱們得到 App AI 學習圈主理人快刀青衣老師的話說,能做出這樣的行動,是非常有魄力的。他打了一個比方:之前開源的是工作成果,就像一個老師傅,把他所有的經驗無私傳授給你。而現在,你不但能拿到老師傅的秘籍,還能看到老師傅在過程中是怎麼幹活兒的。這對很多人來說,會比結果更有價值。
當然,各國網友對 DeepSeek 這一動作都不乏贊美之辭,反響十分熱烈。
今天我們先不細究代碼庫 FlashMLA 的工作原理,而是想來聊一下,從 DeepSeek R1 發布以來許多人在思考的一個問題:真正具有 " 開源精神 " 的DeepSeek 加上華為,能不能超越英偉達和 Open AI?
正好前不久,咱們得到的萬維鋼老師,在他的專欄裡花大篇幅回答了這個問題。本文選自《萬維鋼 · 精英日課 6》,文中萬老師用更全面、更長遠的視角,探讨了為什麼 AI 需要越來越強的算力,以及中國為什麼要突破芯片技術限制、堅持長期投入通用人工智能研發等問題。
下面,請萬維鋼老師為你分享:
作者:萬維鋼
來源:《萬維鋼 · 精英日課6》
01
對算力的需求永無止境
DeepSeek 采用了一些巧妙的優化方法,能夠用比較少的算力實現 o1 級别的功能,這非常了不起,這對中國——也對美國——的大模型研發者都是天大的好消息。
但這絕不是說以後英偉達那種高級芯片就沒用了,咱國產芯片就夠用了。現在 AI 縮放定律遠遠沒有看到盡頭,更高的智能要求更高的算力這個根本原則并沒有變。
要知道就算沒有 DeepSeek,别家公司和科研團隊,包括 OpenAI 自己,也在優化模型性能,再考慮到英偉達芯片更新,用山姆 · 奧特曼的話說就是 " 模型輸出成本每年都會降低十倍 "(即降至原來的十分之一)。
假設 DeepSeek 突破之前那一刻,OpenAI 用 100 的算力得到 100 的智能,DeepSeek 突破了,大家用 10 的算力就能得到 100 的智能——但你的目标不是 100 的智能,而是一萬、甚至一百萬的智能,所以你仍然需要比目前高出百倍千倍的算力。
所以對算力的需求目前來說還是無止境的。
但英偉達并非高枕無憂,美國有好幾家公司在做自己的 AI 芯片,中國也有包括華為、寒武紀、百度、壁仞科技等等正在追趕。那麼國產 AI 芯片的水平相對于英偉達來說到底如何呢?國產最強的是華為昇騰。
我讓 ChatGPT Deep Research 調研并且制作了下面這張表格,把華為昇騰和英偉達近幾年的主流 GPU 做了個對比——
這個結果可以說是既不讓人悲觀,又不讓人樂觀。當前能用的最強國產 GPU 是 2022 年發布的華為昇騰 910B,它的性能在某種意義上已經略微超過目前仍然被很多 AI 公司廣泛使用的、英偉達 2020 年發布的 A100。這很重要,這說明就算美國對中國搞全面斷供,中國也能繼續訓練 AI。
但 910B 比英偉達目前的當家芯片,2023 年發布的 H200 和 24 年發布的 B100,就差距比較大了,算力大致相當于英偉達的二分之一到四分之一。華為 2025 年即将量產昇騰 910C,基礎算力與 910B 差不多,推理性能據說達到英偉達之前 H100 的 60%。但英偉達 2025 年會推出 GX200,算力預估是 910C 的五倍。
02
高級智能一定是通用智能
為什麼英偉達在繼續突飛猛進,而華為有點接近極限的意思?
這裡最重要的原因就是光刻制程。
英偉達 A100 和華為昇騰系列都是 7 納米制程,在這個尺度上中芯國際能做。只是在 910C 這個級别要求 N+2 制程,中芯國際的良率據說很低,這意味着生產成本高。而英偉達 H 系列、B 系列、GX 系列分别是 5 納米、4 納米、3 納米制程,中芯國際做不了。
因為中國大陸沒有極紫外光刻機。《精英日課》講《芯片戰争》一書的時候說過,極紫外光刻機極其不可能靠一個國家完全獨立自主造出來,現在看至少未來十年之内可能性不大。
所以當前最可行的辦法,還是從英偉達買。
那你說現在 DeepSeek 已經很好用,我們就在這個基礎上提升性能行不行,何必非得追求最高的性能呢?我認為那是萬萬不行的。
要知道 DeepSeek 是個相對比較小的模型,它是可以跟 o1 對标,但 o1 也不是超大模型。
就在 2025 年下半年,也許更早,OpenAI 會推出 GPT-5,那将是一個超大的模型。它會像現在 GPT-4o 一樣擁有端對端訓練出來的多模态,它将不但能閱讀影像,而且能閱讀視頻和音頻,它将能處理海量的數據——所以它需要很多張 GPU。DeepSeek 不會放棄這種模型。
再者,更重要的是,AGI、以及緊接着更重要的 ASI,就是需要超大的算力—— 因為高級智能一定是通用智能。
DeepSeek R1 的效率高,有很多獨創性的技術,但是我們也不能否認,其中有一定以犧牲寬度換取效率的成分。
R1 和之前的 V3 都是「混合專家(mixed experts)」模式,是可能最早法國的 Mistral 模型先采用的,是把智能分散開成若幹個專家模塊,每次遇到新任務就只調用相關的模塊,而不必「全腦」一起思考,這就大大節省了算力。
這個做法相當于你問我數學題我就用數學模塊,問我古詩詞我就用古詩詞模塊。但我們設想,對于更復雜的問題,也許就是需要同時調用幾個領網域的知識和思維模式才能解決。
特别是創造力總是來自不同想法的連接,那麼這個模塊分割法就會限制發揮。再者,DeepSeek 專注于數學、編程和語言處理這幾個領網域,也是為了節省算力不得不為之。
就在最近,斯坦福大學李飛飛的團隊發明了一個更激進的做法,号稱只用不到 50 美元(有個說法是 6 美元)的訓練費用就弄出一個數學解題水平跟 R1、o1 差不多的推理模型,叫 S1。他們是怎麼做的呢?
第一,從開源的通義千問(qwen)的一個小版本語言模型開始,省去前期大規模的訓練;
第二,用一千道精選數學題專門訓練數學解題能力,且只訓練數學能力;
第三,用 Google Gemini 的一個推理版本的推理過程的蒸餾數據來訓練自己的推理能力。
這個做法,就如同找個腦子快的孩子,給他一套精選習題集,讓他背誦别人的解題套路。這樣訓練做題家當然快,但是這除了快沒有别的貢獻。這個做法不會像 R1 那樣湧現出任何新能力,不會給你任何驚喜。
這不是通往 AGI 之路。
03
更多的參數 + 更長的思考時間 = 更好的答案
梁文鋒胸懷大志,絕對不只是想提供一個便宜的做題家,而是想做 AGI。接下來的情形,我估計,差不多是下面這樣的——
對于一般的日常任務,比如一般編程、搞個會議紀要、寫個匯報工作的發言稿、弄個報表之類,只要用普通模型就可以,中國不但沒問題而且可能有價格和服務上的優勢,也許中國的模型是最好的。
但對于科研任務,特别是探索最前沿突破,你需要能想得很廣而且很深,你需要盡可能地堆積算力。我有個說法是如果一個科研團隊願意花 5000 美元問 ChatGPT 一個問題,而另一個同樣水平的科研團隊願意花一萬美元,那麼後者将得到更好的答案——僅僅是因為模型願意為他們思考更長時間。
只要縮放定律仍然有效,那麼,更多的參數 + 更長的思考時間 = 更好的答案
也是更值錢的答案。接下來 AI 在科研領網域會大有作為,科研發現的速度會加快,所以争奪會非常激烈。一種新藥只能被發現一次,誰先做出來就是誰的。
還有一個在我看來最重要的考慮,是誰先達到 ASI。
我們這裡不妨定義ASI 是「自己可以訓練自己」的超級人工智能。那麼誰先達到 ASI,誰就等于是獲得了一個絕對的領先優勢。這就相當于戰略遊戲裡誰先造出「奇觀」來,能大大加強自己的戰略優勢。
試想如果美國率先達到 ASI,那就意味着以後的路全打通了,剩下的事只是給 AI 喂芯片喂電力而已,不需要人類科學家再有奇思妙想,可謂是高枕無憂——那到時候中國怎麼辦呢?還靠一幫人努力追趕嗎?
慶幸的是中國有個 DeepSeek。就在 DeepSeek 的論文中,已經透露出一點迹象,模型自己給自己提出了一個算力優化策略。你可以說梁文鋒已經看到了 ASI 的光線。我們設想 OpenAI 肯定也有類似的東西,但他們從未公開過。
DeepSeek 震撼美國這段時間,Anthropic CEO 達裡奧 · 阿莫迪(Dario Amodei)有一些公開言論,很耐人尋味。他說如果不限制中國發展 AI,那會對全人類都有好處,我們會迎來突飛猛進的十年——但是中國會把 AI 用于軍事,而這對美國很不利,所以他呼籲美國政府加強對中國 AI 的限制。他還說,真希望 DeepSeek 團隊到美國來為他們公司工作。
這些言論在 X 上遭到了美國網友的圍攻。首先你作為一個科技公司 CEO 去強調地緣政治,這本身就是錯的:科技應該為全人類服務。再者你咋這麼會想呢?人家 DeepSeek 憑啥到美國來幫你幹?
這些言論進一步說明了 DeepSeek 的戰略意義。接下來美國政府有可能加強對中國 AI 的限制,甚至完全脫鉤,但也有可能松動英偉達的出口管制,畢竟跟特朗普什麼都可以談。不論如何,我們必須認準 ASI 這個大方向,而絕對不能滿足于解解數學題、日常編程那些任務。
總想四兩撥千斤、少花錢多辦事兒、以 20% 的投入解決 80% 的問題,那是走不遠的。
中國必須有人寧可選擇費力又費錢的路。
萬老師是前物理學家,現科學作家,得到 App《萬維鋼 · 精英日課》主理人。萬老師從 2016 年起,在得到 App 開設《精英日課》年度專欄,至今已更新到第 6 季,累計超過 70 萬人次訂閱追随。歡迎你加入正在更新的《萬維鋼 · 精英日課 6》。