今天小編分享的互聯網經驗:非技術人10分鍾讀懂Deepseek R1,歡迎閱讀。
本文來自微信公眾号:一澤 Eze,作者:一澤 Eze,原文标題:《非技術人 10 分鍾讀懂 Deepseek R1|天才模型養成與 AI 超越人類的破曉時刻》,題圖來自:unsplash
DeepSeek 在這個春節火到沒邊。
不僅在公眾号、小紅書、抖音瘋狂刷屏,就連過年餐桌上七大姑八大姨都會來找我唠上兩句:" 你知道滴噗系可(DeepSeek)嗎 "。
抛開看熱鬧的浮躁氣,我想從一個非技術人的角度,分享近期對 DeepSeek 的研究總結,主要圍繞以下話題:
天才養成記:DeepSeek R1 為什麼如此聰明?
" 填鴨 " 之困:傳統大模型訓練的瓶頸?
自學成才:DeepSeek R1 的破局之道?
純強化學習:再次帶來 AI 超越人類的希望?
就我觀察而言,大多數人讨論的 DeepSeek ,基本指的是它的深度思考版本—— DeepSeek R1。
DeepSeek R1 不同于先前的普通模型(如 ChatGPT-4、Claude 3.5 sonnet、豆包、通義等),它與 OpenAI 現在最先進的模型 o1、o3 一樣,同屬于一條技術路線:基于強化學習 RL 的 推理(Reasoning)模型。
其标志性表現就是,在回答用戶問題前,R1 會先進行 " 自問自答 " 式的推理思考,憑此提升最終回答的質量。
這種 " 自問自答 ",并非簡單的自言自語,而是 AI 在模拟人類的深度思考。
從用戶初始問題 " 先有雞還是先有蛋 " 出發,AI 喚醒解決該問題所需的推理邏輯與知識,對問題進行多步推導,為最終回答提供更加完備的思考準備。
用戶初始指令:先有雞還是先有蛋?
推理 1 - 問題領網域分析:經典哲學、科學難題
推理 2 - 知識回憶:哲學 - 因果循環;科學 - 進化論、生物學發展
推理 3 - 用戶意圖分析:用戶可能是在尋找明确答案,但這個問題沒有絕對答案,所以需要解釋不同觀點
推理 4 - 結合用戶場景:學生作業 → 更加結構化回答;普通用戶 → 簡潔易懂的解釋……
最終回答:根據以上信息,綜合生成結果
這種能力,并非憑空而來。
如果把 AI 比作人類,那麼 DeepSeek R1 的 " 聰明 ",源于其背後獨特的 " 教育方式 "。
在許多其他的 AI 模型還在接受 " 填鴨式教育 " 時,DeepSeek R1 已經率先進入了 " 自學成才 " 的新階段。
" 填鴨教育 " 之困:人類的局限,AI 的上限
當前 AI 大模型的訓練分為兩個階段:" 預訓練 "、" 後訓練 "。
" 預訓練 " 階段,主要依賴于海量的 " 預訓練 " 數據,一股腦地把各種知識 " 填鴨 " 給 AI。
就像學齡前的孩子背誦唐詩三百首。
雖然能 " 鹦鹉學舌 " 般地在 " 鵝,鵝,鵝 " 後接上 " 曲項向天歌 ",卻不理解詩詞的格律、意境,更不懂如何運用這些知識去創作。
你問他 " 鵝是什麼 ",他可能只會機械地接龍 " 曲項向天歌 ",驢唇不對馬嘴,無法和你有效回應。
這便是大模型 " 預訓練 " 的實質與局限:
它賦予了 AI 海量的知識基礎,卻無法讓 AI 真正理解和運用這些知識,只能基于背過知識的統計概率進行 " 續寫 "。
更關鍵的在于,此時的 AI 還沒有學會如何與人類進行有效的對話,不知道如何理解你的問題,也不知道如何組織語言來回答你。
它就像一個 " 知識巨人,對話侏儒 ",空有全世界的知識,卻不知如何表達。(是的,未經 " 後訓練 " 的基礎模型,往往用戶指令遵循性差,生成内容的格式混亂、難以閱讀、邏輯斷裂,也無法和人進行有效對話。)
而在 " 後訓練 " 階段,則是對 AI 的輸出方式、指令遵循、推理等特定任務進行 " 特訓 "。
例如,讓 AI 學會與人類對話,生成人類易于閱讀的長句,或者學會輸出更加合理的推理過程。
此前," 後訓練 " 主要采用監督微調(SFT)或基于人類反饋的強化學習(RLHF)等方法。
監督微調(SFT):用特定數據集對模型進行 " 填鴨式 " 訓練,使得模型參數得到微小的特定調整。
例如,讓孩子額外加背宋詞三百首,以應付明天的 " 唐詩 + 宋詞 " 的綜合性考試;或者反復強調 " 出門 → 要關燈 ",機械訓練節約用電的好習慣。
基于人類反饋的強化學習(RLHF):人類訓練者會對 AI 模型的多個輸出進行評分或排序,訓練模型理解什麼是 " 好的回答 "。
例如,小學生解答數學題時,老師會限制他們使用 " 代數方程 " 這類超綱解法,因為不符合小學教育測驗的預期。
這種方式的局限在于,AI 受限于人類訓練者的認知局限與主觀偏好,終究還是限制了模型自主探索最優解的能力。
可見,無論是 SFT 還是 RLHF,都難以擺脫 " 填鴨式教育 " 的影子。
它們或許能讓 AI " 鹦鹉學舌 ",卻無法讓 AI " 融會貫通 "。人類标注者的認知天花板,也成為了 AI 能力提升的瓶頸。
自學成才:純強化學習再次帶來 AI 超越人類的希望
而 DeepSeek R1 則引入了純強化學習(RL),不依賴大量的人類标注數據,而是讓 AI 通過自我探索和試錯來學習:
DeepSeek R1 在 " 冷啟動 " 階段,僅通過少量(數千條)人工精選的思維鏈數據進行初步引導,建立起符合人類閱讀習慣的推理表達範式。
随後,便主要依靠強化學習,在獎勵系統的反饋下(只對結果準确率與回答格式進行獎勵),自主探索推理策略,不斷提升回答的準确性,實現自我進化。
準确率獎勵:用于評估 AI 提供的最終答案是否正确,以此為 AI 提供答案準确度的反饋。
格式獎勵:強制結構化輸出,讓模型把思考過程置于标籤之間,以便人類觀察模型的推理過程。
正如 Alpha Zero 只訓練了三天,就以 100 比 0 的戰績完勝 Alpha Go Lee(戰勝李世石的版本)。
Alpha Go(老):監督學習 + 強化學習。學習人類棋譜,也更接近人類職業棋手的風格,繼承了人類的局限。
Alpha Zero(新):完全摒棄人類數據的純強化學習。從零開始自我博弈,不受限于人類經驗,具有創造性的下棋風格。
大模型 AI 在純強化學習(RL)下同樣也展現出了超出人類研究員想象的成長潛力:
" 我們只需要簡單地為其提供正确的激勵措施,它就會自主開發高級的問題解決策略,RL 有可能解鎖新的人工智能水平。"
* 只不過 Alpha Zero 的強化學習更加專精棋類。而 DeepSeek R1 在訓練中,更注重學習推理的底層策略,培養通用推理能力,使其能夠實現跨領網域的知識遷移運用和推理解答。
更有趣的是,DeepSeek 還有一個更加聰明的 R1-zero 實驗版本
這個版本甚至沒有進行任何的初始引導,而是采用了完全從零開始的強化學習。
實驗表明,無需任何人類的監督訓練,R1-zero 自然而然地學會了用更多的思考步驟來解決推理任務,還學會了在推理過程中反思先前的推理步驟,探索解決問題的替代方法。
沒錯,AI 在純強化學習中,自發湧現出了更強的推理能力與頓悟時刻:
* 但因為沒有微調,R1-zero 的輸出内容可讀性差、語言混合,且風險不可控。所以我們見到的才是經過符合人類閱讀偏好的冷啟動與微調過的 R1 版本,确保 AI 生成内容的穩定、安全、道德、無害。
純強化學習,在 Alpha Zero 完勝所有人類棋手之後,再次點燃了 AI 全面超越人類的希望。
當 AI 掙脫人類經驗的束縛,真正的智能革命或許才剛剛拉開序幕。
附:DeepSeek R1 完整訓練過程
因文章定位與行文節奏設計,上文僅對影響 R1 湧現關鍵智能的前兩個訓練步驟進行了講解。
更加完善的訓練說明,可直接閱讀官方論文:
DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
Ref:
DeepSeek-AI《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》https://arxiv.org/html/2501.12948
碎瓜 - 波斯兔子《Deepseek R1 可能找到了超越人類的辦法》https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ
大聰明 - 賽博禅心《DeepSeek R1 是怎麼訓練的?》https://mp.weixin.qq.com/s/Wuz0H9jmZYV1jM1Y-twTlA
老劉說 NLP 《可視化角度具象化理解 DeepSeek-R1 類推理大模型的習得進程》 https://mp.weixin.qq.com/s/ytKTGTgU2T7jSNrBghX1cA
Tianzhe Chu et al.《SFT 記憶,RL 泛化:基礎模型訓練後的比較研究》https://arxiv.org/html/2501.17161
Metaso 長思考對話《RL 和 SFT 在後訓練中的區别》https://metaso.cn/s/WGdOwPC
本文來自微信公眾号:一澤 Eze,作者:一澤 Eze