今天小編分享的互聯網經驗:實測Kimi探索版,是中國的o1大模型嗎?,歡迎閱讀。
文 | 新識研究所,作者 | 楊啟隆,編輯 | 丁力
國内大模型廠商們,最近都在迭代新玩意。
而相關進展大多都集中于多模态領網域,其中,自年初 Sora 發布之後,國產文生視頻大模型的進度一直受到關注。8 月底,MiniMax 公布了首個 AI 高清視頻生成模型。在接下來的 9 月,豆包直接發布了兩款視頻生成大模型,并且得到了灰測用戶的一致好評。而科大訊飛也宣布将于本月首次發布多模态視覺互動及超拟人虛拟人互動能力 ......
不過,在或深或淺地體驗了這些新玩意之後,如果要讓我挑出一個對日常的學習與工作最有實質性幫助的工具,卻覺得不是這些文生視頻的大模型或者其他,而是剛剛面世的 Kimi 探索版。
作為在一定程度上想要對标 OpenAI 擁有 " 推理時計算 " 能力 o1 的國内產品,據官方介紹,Kimi 探索版可以模拟人類的推理思考全過程、執行深度搜索并反思改進結果,來提供更加全面和準确的答案。
而 Kimi 探索版產品負責人甚至 " 誇下海口 " —— " 如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統搜索引擎找到。"
那麼,Kimi 探索版同當前國内的其他大模型應用在技術上有什麼區别?在實測中的表現是否會像負責人說的那樣強大?又會對國内的 AI 搜索與大模型發展方向造成什麼樣的影響呢?
Kimi 探索版,真有國產 o1 的潛質
先看官方給出的定義,Kimi 探索版是一個" 具備 AI 自主搜索能力,可以模拟人類的推理思考過程,多級分解復雜問題,執行深度搜索,并即時反思改進結果,提供更全面和準确的答案,幫助你更高效地完成分析調研等復雜任務 "的好幫手。
其中 " 模拟人類的推理思考過程 "、" 即時反思改進結果 ",是不是就和一個月之前 OpenAI o1 模型 " 模仿人類系統 2 思考,在推理時計算更加緩慢和深入,更能夠突破復雜的邏輯性問題 " 有着異曲同工之妙?
在定義上的幾乎相同之外,Kimi 官方提到其能實現如此結果所依仗的第一條就是 " 自主規劃策略,步步為營",具體來看,就是 Kimi 探索版會将復雜問題分解為層次化的子問題,然後分步來執行。
這,也同倫敦大學學院(UCL)人工智能中心汪軍教授認為 o1 所采用的馬爾可夫決策過程一模一樣。
圖源:機器之心
其實,至此我們大概也就能明了,Kimi 探索版就像國產版的 o1,擁有像人類一樣深度思考的能力,更适合那些需要多步推算判斷才能得到最終答案的問題。
既然有了方向,那就去看看 Kimi 探索版的表現如何吧。
在勾選 Kimi 探索版之後,我給出我的問題—— " 假設我在 2024 年 9 月 2 日有 100000 元,對比一下截至 9 月 30 日,購買騰訊港股和購買貴州茅台哪個方案的收益率更高?具體收益額會高出多少?"
用人的直覺來拆解,其實就是查詢騰訊和貴州茅台分别在 9 月 2 日和 9 月 30 日兩個時間的股價,進行收益率比較,并且代入最初的本金計算出具體的收益額。
而 Kimi 探索版的思考過程也确實如此,将這個問題分為了①查詢——查詢兩個時間點上兩只股票的價格②計算——計算各自收益率③結論——給出購買貴州茅台收益率更高的結論,并輸出具體高出的收益額有多少。
這個簡單的問題其實就體現了 Kimi 探索版的不同,其會将一個相對復雜的問題進行像人一樣的拆分思考,最終給出答案。此外,官方給出的 " 标注三國戰役地點,對應現代城市和地區 " 的示例問題,也很好地體現了這一點。
更令人驚喜的是,在輸出相關的結果之後,Kimi 探索版還有着即時反思搜索結果,補充信息的能力。
據官方表示,就像人一樣,Kimi 探索版可以借助反思能力,來提升和改進回答的質量。面對開放探索型問題,Kimi 探索版發現第一次回答的信息存在缺失,會主動補充回答更多。面對數字相關的搜索問題,Kimi 了解更多信息後如果發現了數據衝突,則會及時補充提供多方視角的信息供參考決策。
而在剛剛的 " 三國 " 問題上,Kimi 探索版也同樣給出了 " 反思 " 的欄目,在最初給出答案的基礎上再次增添了三個,也是我首個見到有該功能的大模型應用。
探索版仍有不足,但未來有望補缺
雖然 Kimi 探索版有着不少的突破,但其也存在不少需要被正視的問題。
其中之一就是官方誇下" 自動化大規模信息檢索,窮盡海量權威信源 "的海口了。在推送中,官方表示 "Kimi 探索版則可以一次并行搜索幾十個不同的關鍵詞,篩選和閱讀幾百個權威的信息源 ",而一些博主的測試中,也顯示 Kimi 探索版會同時搜索數百個網頁的信息。
但是,回到 " 标注三國戰役地點,對應現代城市和地區 " 這個示例問題上來,有的博主在搜索過程中就會出現閱讀 134 個網頁的情況,而我在親身體驗中則只能搜索 49 個網頁的資料,得出的結果也有所不同。那位博主的答案不出所料地比我更加全面。
面對這樣的情況,我不禁想發出疑問,同樣的問題、不同的檢索範圍、不同的結果,究竟是技術、所處環境的問題還是算力的問題?畢竟 OpenAI 的 o1 計算時的所需成本,可不是一個小數字。
之後官方也對我的疑問進行了回答,表示無論顯示的閱讀網頁數量是多少,相同問題給出的答案都是一樣的、沒有區别。但這樣來說,究竟是我的 Kimi 探索版謙虛了,還是其他大 V 博主的 Kimi 探索版略有不實呢?
而在這個相對來說有些 " 無關痛癢 " 的問題外,Kimi 探索版還是有着其他大模型無法解決的問題。
在我問及 "1 到 100 之間奇數的英文單詞有多少個字母‘ e ’ " 的問題的時候,雖然 Kimi 表現出了較強的邏輯性,但在具體的數 "e" 上卻翻了車——以圖上紅框内的英文數字為例,thirty-one 中明明只有一個 "e",但 Kimi 探索版卻給出了錯誤的回答。
此外,還有之前大模型會出現幻覺和出現錯誤的問題,Kimi 探索版也同樣掉進了坑裡。其實這也就意味着 Kimi 只是在 " 思考 " 方法上進行了改變," 思考 " 的能力并沒有提升,這或許也是月之暗面将其定義為 " 搜索版 " 的主要原因吧。
不過,這些也并不影響 Kimi 探索版出現的意義。
還記得在不到一年之前,某幾家大模型廠商,還在瘋狂輸出商業合作給各個宣傳口,告訴大家 " 如何調整提示詞大模型才能輸出給你想要的結果 "、" 要在調整提示詞後和大模型進行多輪對話,一步步引導大模型跟随你的思考路徑給出答案 "。
而如何解決這個問題,讓大家不再被繁瑣的提示詞困擾,正是這次 Kimi 探索版的意義所在。
正如官方所說,Kimi 探索版希望幫助用戶節省花在搜索調研任務上的時間,讓大家可以有更多時間專注于提出問題、思考和創造。不過,截至目前每個賬号每天只有 5 次提問機會,想要用作生產力還是有些距離,不過月之暗面也回應了我對未來使用次數是否會增加—— " 後續根據用戶的使用情況會考慮逐步增加,給用戶更好的體驗 ",就讓我們一起期待吧。
此外,如果将其當作一個純搜索引擎的話,Kimi 探索版的表現也遠遠超過市面上的主流搜索引擎,畢竟與其在幾秒鍾得到一個不一定正确且解釋亂七八糟的結果,我更希望它可以多花點時間好好想想,給我一個高質量的結果。
參考資料:
1.《懂股票、愛計劃,體驗完 Kimi 探索版我回不去了。》,差評 X.PIN;
2.《kimi 探索版提前體驗,有點兒強 ~》,CC 的個人筆記;
3.《遲來了 1 個月,但 Kimi 的慢思考似乎比 OpenAl 更有用》,阿虛同學;
4.《一文看懂 LLM 推理,UCL 汪軍教授解讀 OpenAI ο 1 的相關方法》,機器之心。