跑分超 o1，還會看圖思考，數理化正在被 AI「完爆」

今天小編分享的科技經驗：跑分超 o1，還會看圖思考，數理化正在被 AI「完爆」，歡迎閲讀。

在 OpenAI o1 正式版發布 10 天後，Kimi 的「高階推理模型」也落地了。

12 月 16 日，Kimi 直接發布了自己的「視覺思考模型」k1。相比于一個月前發布的 k0-math，k1 支持端到端的影像理解和思維鏈（CoT），不僅推理能力進一步提升，還可以識别幾何圖形、圖表等影像信息。

增強推理之後，大模型會獲得更嚴密的邏輯思考能力，在基礎科學領網域的能力表現大幅提升。如果説過去的大語言模型相對更接近「文科生」，那麼現在，它學會了「數理化」。

發布模型的同時，月之暗面宣布，Kimi k1 在多項基礎學科的基準能力測試中表現優異，超越了 Open AI o1、GPT-4o，及 Claude 3.5 Sonnet。

學會「數理化」，意味着 Kimi 的能力得到了擴增。但更重要的是，高質量「思維鏈」的出現，将徹底改變大模型的思維深度，讓它具備「自主探索答案和反思」的能力。

學會「自主探索和反思」，或許就是 AI 擴寬人類知識邊界的關鍵所在。

學會「數理化」的大模型

今年夏天，就有媒體利用高考試卷，測試了大模型的「知識水平」。

得到的結果相當驚人，不少大模型的測試成績，都達到了「一本線」的水平，但僅限「文科」。大模型最擅長的學科是語文、英語，以及政治歷史，這幾門課基本都可以拿到 80 分以上，英語更是可以接近滿分。但數理化三科，大部分模型都無法及格。包括文綜三科裏，比較注重邏輯判斷的地理，大模型的表現也欠佳。

這裏最大的原因在于，大模型缺少「推理」能力，去對輸出的内容進行「收斂」。面對那些較為開放，沒有唯一标準答案的主觀題，大模型往往能引經據典，給出豐富的回答，組織語句的能力也較強——這都是語言模型的「老本行」。但面對那些理科的客觀題，只有唯一标準答案的時候，大模型就較難命中靶心。

所以，想要衡量下一代「高階推理模型」的能力高低，很大程度上，就是要看它的理科成績如何。

此次 Kimi k1 發布，月之暗面公布的第一項基準測試，就是「數理化」三門學科的能力測試。根據測試結果，k1 大幅領先于 GPT-4o。而 4o 曾是今年夏天在高考測試中表現相對最好的大模型。同時，k1 相比 OpenAI 最先進的高階推理模型 o1，也存在一定優勢。

不只是中學水平的數理化，Kimi k1 對于更高階的問題也具備相當強的解析能力，比如奧賽數學。我們嘗試輸入了一道主要面向高校的數學奧賽題目給 Kimi，它也順利完成了推理解答，并得到了正确答案。

如果説，此前通用大模型 AI 的知識水平大概處于「高考一本線」左右，那具備高階推理能力的 k1，在一些領網域則至少來到了研究生，甚至博士級的水平。

在應用層面，k1 具備兩個重要特點，第一是對視覺内容的「端到端」支持，用户只需要輸入問題截圖、拍照，甚至是手寫的題目，Kimi 都能夠識别出原題，并進行推理解答。即便畫面裏有噪聲，不夠清晰，也沒有問題。特别是針對那些有圖示的幾何題、應用題，Kimi k1 能夠結合圖示來理解題意，這是過去的大模型很難做到的。

其次，則在于 Kimi 具備「思維鏈」技術，讓用户看到的不只是答題結果，而是能看到模型思考和推演答案的全過程。

到這裏，看起來 k1 最主要的應用價值是教育，能成為學生和家長的「輔導助手」，但事情遠沒有這麼簡單。

會「一步步思考」的 AI

當我們嘗試用 Kimi k1 來解答一系列中學數理化問題，會發現明顯的特征是，k1 的思考過程非常細，甚至有時候會有點「太細了」。

它會把一個問題分析、拆解到最底層，產生結論之後，還會主動從其他角度進行二次思考，來驗證自己之前的想法是否正确，如果發現矛盾，就會進行進一步的反思。

思維鏈究竟應該細化到何種程度，目前還沒有一個全行業共識的答案。但可以肯定的是，大模型的思維鏈能力可以啓發人類做事的思路。這是許多行業的專業人士在使用推理模型後，最常發出的感慨。

目前這一代「高階推理模型」所具備的思維能力，率先在數理化解題、專業知識解讀等場景下，得到了最明确的體現。而這種推理能力更深層的意義，在于「反思」。

「反思」能力的出現，通過思維鏈技術，能讓大模型輸出的内容變得更有邏輯，更可控且靈活。

當下大模型應用場景裏，明顯存在的一個矛盾是：當我們提出一個問題，如果我們自己不知道答案，我們就依然無法判斷大模型給出的答案是否正确。

但如果大模型能給出自己的邏輯思維過程，我們就可以參考這個過程，來判斷答案的合理與否。所以當下包括 Kimi k1 在内的模型，一個最好用的 prompt 就是「一步步分析」，這樣經過專門訓練的大模型就能給出更詳細的思考過程，供用户進行參考評估。

這有助于消除大模型的「幻覺」問題。就是説，大模型可以自己對自己的拟合結果進行反思，嘗試把那些可能錯誤的内容剔除出去。即便生成結果中包含一些可疑的、不确定的部分，用户也更容易從 AI 的思考過程中發現這些内容，進行二次審核确認。這對 AI 的安全性、可靠性，也會是一個積極提升。特别是對專業領網域的用户來説，這一點将非常有意義。

通過「思維鏈」，Kimi k1 不僅能進行更復雜的思考，對輸出結果進行收斂，還能輸出更有邏輯的結果，彌合與用户之間的認知鴻溝。

用「反思」突破人類知識邊界

高階推理能力、思維鏈、端到端的視覺輸入……大模型 AI 正在經歷一輪新的颠覆性改變。Kimi 再次占據了優勢身位。

過去大模型所采取的，泛意義上的機器學習思路，更多是基于數據進行「拟合」，也就是模仿。上一代語言模型主要模仿的，就是人類説話、寫字的方式。因為 AI 的學習效率很高，通過整合大量的知識數據，就能輸出很好的結果。

但這依然注定了，這樣的模型只能無限接近人類的水平，而很難超越人類已知的知識範疇，無法產生新的知識。

這也是為什麼過去很多人覺得，大模型應用有點像是「什麼都懂一點的大學生」，但在任何一個垂直領網域都不夠深入，無法給出更有價值的獨到洞見。

但「反思」能力的出現，則意味着，AI 大模型未來可能可以通過自我的對抗強化學習，產生新的知識，真正超越人類現有的知識邊界。

這件事早有成功範例。比如 AlphaGo，就是利用強化學習的方法，基于人類圍棋棋手的棋譜，發散出了更多，遠超人類棋手所知的策略。之後的 AlphaZero，則是在完全沒有輸入任何棋譜數據的前提下，只是輸入規則，完全通過自我的對抗強化訓練，產生了超越人類的智能。

在 Kimi k1 的功能演示中，月之暗面特意輸入了一些古代科學家的手稿，這些手稿在今天看起來無比模糊，普通人幾乎不可能理解其含義，但 Kimi 也能夠通過思考，發掘出很多畫面上沒有的背景信息。