今天小編分享的科技經驗:跑分超 o1,還會看圖思考,數理化正在被 AI「完爆」,歡迎閱讀。
在 OpenAI o1 正式版發布 10 天後,Kimi 的「高階推理模型」也落地了。
12 月 16 日,Kimi 直接發布了自己的「視覺思考模型」k1。相比于一個月前發布的 k0-math,k1 支持端到端的影像理解和思維鏈(CoT),不僅推理能力進一步提升,還可以識别幾何圖形、圖表等影像信息。
增強推理之後,大模型會獲得更嚴密的邏輯思考能力,在基礎科學領網域的能力表現大幅提升。如果說過去的大語言模型相對更接近「文科生」,那麼現在,它學會了「數理化」。
發布模型的同時,月之暗面宣布,Kimi k1 在多項基礎學科的基準能力測試中表現優異,超越了 Open AI o1、GPT-4o,及 Claude 3.5 Sonnet。
學會「數理化」,意味着 Kimi 的能力得到了擴增。但更重要的是,高質量「思維鏈」的出現,将徹底改變大模型的思維深度,讓它具備「自主探索答案和反思」的能力。
學會「自主探索和反思」,或許就是 AI 擴寬人類知識邊界的關鍵所在。
01
學會「數理化」的大模型
今年夏天,就有媒體利用高考試卷,測試了大模型的「知識水平」。
得到的結果相當驚人,不少大模型的測試成績,都達到了「一本線」的水平,但僅限「文科」。大模型最擅長的學科是語文、英語,以及政治歷史,這幾門課基本都可以拿到 80 分以上,英語更是可以接近滿分。但數理化三科,大部分模型都無法及格。包括文綜三科裡,比較注重邏輯判斷的地理,大模型的表現也欠佳。
這裡最大的原因在于,大模型缺少「推理」能力,去對輸出的内容進行「收斂」。面對那些較為開放,沒有唯一标準答案的主觀題,大模型往往能引經據典,給出豐富的回答,組織語句的能力也較強——這都是語言模型的「老本行」。但面對那些理科的客觀題,只有唯一标準答案的時候,大模型就較難命中靶心。
所以,想要衡量下一代「高階推理模型」的能力高低,很大程度上,就是要看它的理科成績如何。
此次 Kimi k1 發布,月之暗面公布的第一項基準測試,就是「數理化」三門學科的能力測試。根據測試結果,k1 大幅領先于 GPT-4o。而 4o 曾是今年夏天在高考測試中表現相對最好的大模型。同時,k1 相比 OpenAI 最先進的高階推理模型 o1,也存在一定優勢。
不只是中學水平的數理化,Kimi k1 對于更高階的問題也具備相當強的解析能力,比如奧賽數學。我們嘗試輸入了一道主要面向高校的數學奧賽題目給 Kimi,它也順利完成了推理解答,并得到了正确答案。
如果說,此前通用大模型 AI 的知識水平大概處于「高考一本線」左右,那具備高階推理能力的 k1,在一些領網域則至少來到了研究生,甚至博士級的水平。
在應用層面,k1 具備兩個重要特點,第一是對視覺内容的「端到端」支持,用戶只需要輸入問題截圖、拍照,甚至是手寫的題目,Kimi 都能夠識别出原題,并進行推理解答。即便畫面裡有噪聲,不夠清晰,也沒有問題。特别是針對那些有圖示的幾何題、應用題,Kimi k1 能夠結合圖示來理解題意,這是過去的大模型很難做到的。
其次,則在于 Kimi 具備「思維鏈」技術,讓用戶看到的不只是答題結果,而是能看到模型思考和推演答案的全過程。
到這裡,看起來 k1 最主要的應用價值是教育,能成為學生和家長的「輔導助手」,但事情遠沒有這麼簡單。
02
會「一步步思考」的 AI
當我們嘗試用 Kimi k1 來解答一系列中學數理化問題,會發現明顯的特征是,k1 的思考過程非常細,甚至有時候會有點「太細了」。
它會把一個問題分析、拆解到最底層,產生結論之後,還會主動從其他角度進行二次思考,來驗證自己之前的想法是否正确,如果發現矛盾,就會進行進一步的反思。
思維鏈究竟應該細化到何種程度,目前還沒有一個全行業共識的答案。但可以肯定的是,大模型的思維鏈能力可以啟發人類做事的思路。這是許多行業的專業人士在使用推理模型後,最常發出的感慨。
目前這一代「高階推理模型」所具備的思維能力,率先在數理化解題、專業知識解讀等場景下,得到了最明确的體現。而這種推理能力更深層的意義,在于「反思」。
「反思」能力的出現,通過思維鏈技術,能讓大模型輸出的内容變得更有邏輯,更可控且靈活。
當下大模型應用場景裡,明顯存在的一個矛盾是:當我們提出一個問題,如果我們自己不知道答案,我們就依然無法判斷大模型給出的答案是否正确。
但如果大模型能給出自己的邏輯思維過程,我們就可以參考這個過程,來判斷答案的合理與否。所以當下包括 Kimi k1 在内的模型,一個最好用的 prompt 就是「一步步分析」,這樣經過專門訓練的大模型就能給出更詳細的思考過程,供用戶進行參考評估。
這有助于消除大模型的「幻覺」問題。就是說,大模型可以自己對自己的拟合結果進行反思,嘗試把那些可能錯誤的内容剔除出去。即便生成結果中包含一些可疑的、不确定的部分,用戶也更容易從 AI 的思考過程中發現這些内容,進行二次審核确認。這對 AI 的安全性、可靠性,也會是一個積極提升。特别是對專業領網域的用戶來說,這一點将非常有意義。
通過「思維鏈」,Kimi k1 不僅能進行更復雜的思考,對輸出結果進行收斂,還能輸出更有邏輯的結果,彌合與用戶之間的認知鴻溝。
03
用「反思」突破人類知識邊界
高階推理能力、思維鏈、端到端的視覺輸入……大模型 AI 正在經歷一輪新的颠覆性改變。Kimi 再次占據了優勢身位。
過去大模型所采取的,泛意義上的機器學習思路,更多是基于數據進行「拟合」,也就是模仿。上一代語言模型主要模仿的,就是人類說話、寫字的方式。因為 AI 的學習效率很高,通過整合大量的知識數據,就能輸出很好的結果。
但這依然注定了,這樣的模型只能無限接近人類的水平,而很難超越人類已知的知識範疇,無法產生新的知識。
這也是為什麼過去很多人覺得,大模型應用有點像是「什麼都懂一點的大學生」,但在任何一個垂直領網域都不夠深入,無法給出更有價值的獨到洞見。
但「反思」能力的出現,則意味着,AI 大模型未來可能可以通過自我的對抗強化學習,產生新的知識,真正超越人類現有的知識邊界。
這件事早有成功範例。比如 AlphaGo,就是利用強化學習的方法,基于人類圍棋棋手的棋譜,發散出了更多,遠超人類棋手所知的策略。之後的 AlphaZero,則是在完全沒有輸入任何棋譜數據的前提下,只是輸入規則,完全通過自我的對抗強化訓練,產生了超越人類的智能。
在 Kimi k1 的功能演示中,月之暗面特意輸入了一些古代科學家的手稿,這些手稿在今天看起來無比模糊,普通人幾乎不可能理解其含義,但 Kimi 也能夠通過思考,發掘出很多畫面上沒有的背景信息。
此前曾有一種觀點認為:當下人類知識的總量已經太大,人類作為個體,光是學習一個領網域的知識,就已經要耗費大量時間,終其一生,可能也很難達到「知識圈」的邊界,所以很難像過去的群星閃耀的科學時代一樣,不斷有驚世駭俗的研究成果出來。甚至有人認為,人類知識的總和,最終會是有限的。
而現在,具備深度思考能力,學習效率超高且具備無窮壽命的 AI,或許正在開創知識和智能的新維度。