大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

實測Kimi探索版,是中國的o1大模型嗎?

2024-10-16 简体 HK SG TW

今天小編分享的互聯網經驗:實測Kimi探索版,是中國的o1大模型嗎?,歡迎閱讀。

文 | 新識研究所,作者 | 楊啟隆,編輯 | 丁力

國内大模型廠商們,最近都在迭代新玩意。

而相關進展大多都集中于多模态領網域,其中,自年初 Sora 發布之後,國產文生視頻大模型的進度一直受到關注。8 月底,MiniMax 公布了首個 AI 高清視頻生成模型。在接下來的 9 月,豆包直接發布了兩款視頻生成大模型,并且得到了灰測用戶的一致好評。而科大訊飛也宣布将于本月首次發布多模态視覺互動及超拟人虛拟人互動能力 ......

不過,在或深或淺地體驗了這些新玩意之後,如果要讓我挑出一個對日常的學習與工作最有實質性幫助的工具,卻覺得不是這些文生視頻的大模型或者其他,而是剛剛面世的 Kimi 探索版。

作為在一定程度上想要對标 OpenAI 擁有 " 推理時計算 " 能力 o1 的國内產品,據官方介紹,Kimi 探索版可以模拟人類的推理思考全過程、執行深度搜索并反思改進結果,來提供更加全面和準确的答案。

而 Kimi 探索版產品負責人甚至 " 誇下海口 " —— " 如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統搜索引擎找到。"

那麼,Kimi 探索版同當前國内的其他大模型應用在技術上有什麼區别?在實測中的表現是否會像負責人說的那樣強大?又會對國内的 AI 搜索與大模型發展方向造成什麼樣的影響呢?

Kimi 探索版,真有國產 o1 的潛質

先看官方給出的定義,Kimi 探索版是一個" 具備 AI 自主搜索能力,可以模拟人類的推理思考過程,多級分解復雜問題,執行深度搜索,并即時反思改進結果,提供更全面和準确的答案,幫助你更高效地完成分析調研等復雜任務 "的好幫手。

其中 " 模拟人類的推理思考過程 "、" 即時反思改進結果 ",是不是就和一個月之前 OpenAI o1 模型 " 模仿人類系統 2 思考,在推理時計算更加緩慢和深入,更能夠突破復雜的邏輯性問題 " 有着異曲同工之妙?

在定義上的幾乎相同之外,Kimi 官方提到其能實現如此結果所依仗的第一條就是 " 自主規劃策略,步步為營",具體來看,就是 Kimi 探索版會将復雜問題分解為層次化的子問題,然後分步來執行。

這,也同倫敦大學學院(UCL)人工智能中心汪軍教授認為 o1 所采用的馬爾可夫決策過程一模一樣。

圖源:機器之心

其實,至此我們大概也就能明了,Kimi 探索版就像國產版的 o1,擁有像人類一樣深度思考的能力,更适合那些需要多步推算判斷才能得到最終答案的問題。

既然有了方向,那就去看看 Kimi 探索版的表現如何吧。

在勾選 Kimi 探索版之後,我給出我的問題—— " 假設我在 2024 年 9 月 2 日有 100000 元,對比一下截至 9 月 30 日,購買騰訊港股和購買貴州茅台哪個方案的收益率更高?具體收益額會高出多少?"

用人的直覺來拆解,其實就是查詢騰訊和貴州茅台分别在 9 月 2 日和 9 月 30 日兩個時間的股價,進行收益率比較,并且代入最初的本金計算出具體的收益額。

而 Kimi 探索版的思考過程也确實如此,将這個問題分為了①查詢——查詢兩個時間點上兩只股票的價格②計算——計算各自收益率③結論——給出購買貴州茅台收益率更高的結論,并輸出具體高出的收益額有多少。

這個簡單的問題其實就體現了 Kimi 探索版的不同,其會将一個相對復雜的問題進行像人一樣的拆分思考,最終給出答案。此外,官方給出的 " 标注三國戰役地點,對應現代城市和地區 " 的示例問題,也很好地體現了這一點。

更令人驚喜的是,在輸出相關的結果之後,Kimi 探索版還有着即時反思搜索結果,補充信息的能力。

據官方表示,就像人一樣,Kimi 探索版可以借助反思能力,來提升和改進回答的質量。面對開放探索型問題,Kimi 探索版發現第一次回答的信息存在缺失,會主動補充回答更多。面對數字相關的搜索問題,Kimi 了解更多信息後如果發現了數據衝突,則會及時補充提供多方視角的信息供參考決策。

而在剛剛的 " 三國 " 問題上,Kimi 探索版也同樣給出了 " 反思 " 的欄目,在最初給出答案的基礎上再次增添了三個,也是我首個見到有該功能的大模型應用。

探索版仍有不足,但未來有望補缺

雖然 Kimi 探索版有着不少的突破,但其也存在不少需要被正視的問題。

其中之一就是官方誇下" 自動化大規模信息檢索,窮盡海量權威信源 "的海口了。在推送中,官方表示 "Kimi 探索版則可以一次并行搜索幾十個不同的關鍵詞,篩選和閱讀幾百個權威的信息源 ",而一些博主的測試中,也顯示 Kimi 探索版會同時搜索數百個網頁的信息。

但是,回到 " 标注三國戰役地點,對應現代城市和地區 " 這個示例問題上來,有的博主在搜索過程中就會出現閱讀 134 個網頁的情況,而我在親身體驗中則只能搜索 49 個網頁的資料,得出的結果也有所不同。那位博主的答案不出所料地比我更加全面。

面對這樣的情況,我不禁想發出疑問,同樣的問題、不同的檢索範圍、不同的結果,究竟是技術、所處環境的問題還是算力的問題?畢竟 OpenAI 的 o1 計算時的所需成本,可不是一個小數字。

之後官方也對我的疑問進行了回答,表示無論顯示的閱讀網頁數量是多少,相同問題給出的答案都是一樣的、沒有區别。但這樣來說,究竟是我的 Kimi 探索版謙虛了,還是其他大 V 博主的 Kimi 探索版略有不實呢?

而在這個相對來說有些 " 無關痛癢 " 的問題外,Kimi 探索版還是有着其他大模型無法解決的問題。

在我問及 "1 到 100 之間奇數的英文單詞有多少個字母‘ e ’ " 的問題的時候,雖然 Kimi 表現出了較強的邏輯性,但在具體的數 "e" 上卻翻了車——以圖上紅框内的英文數字為例,thirty-one 中明明只有一個 "e",但 Kimi 探索版卻給出了錯誤的回答。

此外,還有之前大模型會出現幻覺和出現錯誤的問題,Kimi 探索版也同樣掉進了坑裡。其實這也就意味着 Kimi 只是在 " 思考 " 方法上進行了改變," 思考 " 的能力并沒有提升,這或許也是月之暗面将其定義為 " 搜索版 " 的主要原因吧。

不過,這些也并不影響 Kimi 探索版出現的意義。

還記得在不到一年之前,某幾家大模型廠商,還在瘋狂輸出商業合作給各個宣傳口,告訴大家 " 如何調整提示詞大模型才能輸出給你想要的結果 "、" 要在調整提示詞後和大模型進行多輪對話,一步步引導大模型跟随你的思考路徑給出答案 "。

而如何解決這個問題,讓大家不再被繁瑣的提示詞困擾,正是這次 Kimi 探索版的意義所在。

正如官方所說,Kimi 探索版希望幫助用戶節省花在搜索調研任務上的時間,讓大家可以有更多時間專注于提出問題、思考和創造。不過,截至目前每個賬号每天只有 5 次提問機會,想要用作生產力還是有些距離,不過月之暗面也回應了我對未來使用次數是否會增加—— " 後續根據用戶的使用情況會考慮逐步增加,給用戶更好的體驗 ",就讓我們一起期待吧。

此外,如果将其當作一個純搜索引擎的話,Kimi 探索版的表現也遠遠超過市面上的主流搜索引擎,畢竟與其在幾秒鍾得到一個不一定正确且解釋亂七八糟的結果,我更希望它可以多花點時間好好想想,給我一個高質量的結果。

參考資料:

1.《懂股票、愛計劃,體驗完 Kimi 探索版我回不去了。》,差評 X.PIN;

2.《kimi 探索版提前體驗,有點兒強 ~》,CC 的個人筆記;

3.《遲來了 1 個月,但 Kimi 的慢思考似乎比 OpenAl 更有用》,阿虛同學;

4.《一文看懂 LLM 推理,UCL 汪軍教授解讀 OpenAI ο 1 的相關方法》,機器之心。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們