月之暗面Kimi模型更新：200萬字視窗版可申請，新增“繼續”功能

今天小編分享的科學經驗：月之暗面Kimi模型更新：200萬字視窗版可申請，新增“繼續”功能，歡迎閱讀。

繼 2 月以投後約 25 億美金估值炸場後，楊植麟的大模型公司月之暗面終于有了一次公開對媒體的活動。

雖然楊植麟本人并未露面，但是發布了更長上下文視窗的版本：

200 萬字上下文版本，今天即刻在 Kimi 上開啟内測。

并且在與 Kimi 對話過程中，加入了（不打斷模型思路的）" 繼續 " 功能按鈕。

月之暗面工程副總裁許欣然（同時也是 Infra 負責人）在會議室咚、咚、咚把好幾摞厚厚的打印紙重重地放在桌面上，分别是打印出來的《中醫中醫内科學》《中醫診斷學》、英偉達 2023 年年度财報、《甄嬛傳》劇本版。

一摞比一摞厚。

現場放話：" 歡迎大家體驗 "。

去年 10 月，月之暗面第一次公開亮相，發布了 20 萬字上下文視窗的 Kimi 模型。

5 個月過去—— 5 個月，對 AI 世界已經是非常久的時間了，Kimi 主要在 3 個方面有所提升：

遵循更復雜的指令

更強的信息檢索能力

網頁版、Android、iOS、小程式

提出 "Kimi 10 分鍾速成定律 "

此次月之暗面最主要的動作，就是将自家模型的上下文視窗提升了一個數量級。

即從發布之初的 20 萬字，拓展到 200 萬字。

同時據許欣然透露，5 個月過去，相同成本、相同設備情況下，模型響應速度提升了 3 倍左右。

為了達到更好的長視窗無損壓縮性能，月之暗面的研發和技術團隊從模型預訓練到對齊、推理環節均進行了原生的重新設計和開發，不走 " 滑動視窗 "、" 降采樣 " 等技術捷徑，攻克了很多底層技術難點。

200 萬字上下文視窗，意味着 Kimi 模型能夠吃下更長的文檔内容，完成更長和更復雜的任務。

包括但不限于，快速整理 N 多檔案，如從 500 份簡歷中提取信息：

現場月之暗面還提出了 "Kimi 10 分鍾速成定律"。

即無關領網域大眾小眾，也無關資料或多或少，只要把資料一股腦丢給模型，10 分鍾内，Kimi 都能快速入門一個新領網域。

比如德州撲克、中醫内科、開（某個特定型号的）飛機、大模型推理……

現場還演示了 Kimi 模型挖掘長篇故事情節中深層次信息的能力。

案例自然是被人類開發程度不足 10% 的甄嬛傳（笑死）。

值得注意的是，月之暗面在媒體溝通會現場提出了一個新說法，即大模型們最近的新競速賽道，" 大海撈針 " 功能，恐怕全綠也沒什麼太大意義了。

最初，大海撈針其實是一個非常好的評測标準，因為當時大家都沒有針對這個 case 去優化過。

但現在它已經不是一個很好的評測指标了，當大家都去關注它的時候，就一定會想盡辦法去優化它，慢慢就失去了原本的參考意義。

如果大海撈針不行了，有什麼新的評測标準能夠檢測模型長文本能力嗎？

" 暫時還沒有。" 許欣然笑道。

他表示，模型視窗越來越長，評測的緯度變得非常非常多，不過團隊已經在和學術界團隊共同探讨這個開放性的問題。

期望打造 " 個人麥肯錫 "

從 20 萬字上下文視窗，迭代為今天開始内測的 200 萬字上下文視窗，具體的模型應用場景又有什麼新的亮眼之處？會不會只是從 " 處理 50 封簡歷 " 到 " 處理 500 封簡歷 " 的簡單線性外擴？

一味拓展大模型上下文視窗的邊界，會不會打造出一把普通人想象中的 " 皇帝的金鋤頭 "？

" 實際上，可能會不斷地出現更多的現實場景，只有足夠長的 context 才能完成。" 月之暗面表示，在 200 萬字版本推出後，接下來 Kimi 模型會在以下幾個方向發展：

第一，領網域專家。

利用長文本能力吃掉一個領網域裡幾乎所有的相關資料，使調研一個行業成為簡單的事情。

第二，可完成復雜多步任務的 Agent，月之暗面内部稱之為 " 個人麥肯錫 "。

希望模型未來不只是像能處理 " 幫我翻譯一下這個 PDF" 這類非常具體的任務，也能自動完成抽象、復雜的任務。

第三，多模态能力。

Context 長了之後，Kimi 模型可以容納更多高清的、時間更長的這種視頻，從而讓我們模型很方便地去拓展到更多的模态。

據月之暗面聯合創始人周昕宇現場的答復，Sora 出來以前，月之暗面就在根據自己的節奏推進多模态能力的研發，Sora 的出現也并沒有打亂原有的安排。

" 預計今年會推出我們自己的多模态模型 / 產品。"

One More Thing

最後，他家大模型還悄麼聲地改名了：

Kimi Chat ➡️Kimi 智能助手

Moonshot 大模型➡️Kimi 大模型

— 聯系作者 —