今天小編分享的科技經驗:國產大模型Kimi爆火,實測到底如何,歡迎閱讀。
本文字數:5147,閱讀時長大約 9 分鍾
導讀:記者實測對比了目前主流的國產大模型。
作者 |第一财經 鄭栩彤 劉曉潔 呂倩
誰是中國版 ChatGPT 的讨論從未消失,在一眾 " 大哥 " 面前,一家創業公司被視為最有力的挑戰者,旗下名為 "Kimi" 的應用甚至成為了資本市場的新寵。
站在 Kimi 背後的是一家叫做月之暗面的公司,該公司 3 月 18 日宣布,Kimi 智能助手在長上下文視窗技術上再次取得突破,無損上下文長度提升了一個數量級到 200 萬字。而在此前,GPT-4Turbo-128k 公布的數字約 10 萬漢字,Claude3200k 上下文約 16 萬漢字。
長上下文意味着什麼?實際能力如何?第一财經記者征求了業内人士的意見并實測了 Kimi 和通義千問等國產大模型產品。
Kimi 為 " 宕機 " 致歉
21 日下午,月之暗面旗下大模型應用 kimi 的 APP 和小程式均無法正常使用。此前,月之暗面發布情況說明:從 2024.3.209:30:00 開始,觀測到 Kimi 的系統流量持續異常增高,流量增加的趨勢遠超對資源的預期規劃。這導致了從 2024.3.2010:00:00 開始,有較多的 SaaS 客戶持續的體驗到 429:engine is overloaded 的異常問題,并對此表示深表抱歉。
在一個 Kimi 團隊與用戶溝通的群裡,Kimi 方面人員表示,"Kimi 從昨天開始用戶量增速很快,工程師已經緊急擴容了幾次,還在實施更多應急措施。"Kimi 訪問量的激增讓這家公司的網絡一度陷入癱瘓。
公開資料顯示,月之暗面由 90 後楊植麟創立,成立于 2023 年 3 月 1 日,目前已完成三筆融資。今年 2 月,該公司完成一筆大額融資,以 15 億美元投前估值完成超 10 億美元 B 輪,阿裡領投,砺思資本、小紅書跟投,投後估值約 25 億美元,是國内最主要的大模型獨角獸之一。
長文本無損壓縮是上述公司瞄準的一個方向。據楊植麟介紹,長文本作為公司 " 登月 " 的第一步,是新的計算機内存,很本質,個性化并非通過微調實現,上下文定義了個性化過程。楊植麟還認為,大模型 " 馬拉松剛開始,接下來會有更多差異化 "。
在 20 萬漢字的基礎上,Kimi 又将上下文長度提升至 200 萬。關于長度提升後有何變化,21 日,月之暗面相關負責人告訴第一财經記者,這會進一步幫助打開對 AI 應用場景的想象力,包括完整代碼庫分析理解、可自主幫人類完成多步驟復雜任務的智能體 Agent、不會遺忘關鍵信息的終身助理、真正統一架構的多模态模型等。
" 簡單來說,文本長度長就可以跟 AI 一直對話,AI 不會‘遺忘’之前的對話内容,還能有比較好的理解。同時,一個項目代碼可達幾百萬行,如果大模型支持的文本長度不夠長,就沒法理解并輔助工作。" 有 IT 人員向記者解釋。
就 " 長文本是否是未來競争的一個差異化方向,抑或大模型廠商都在共同追逐的目标,長文本意味着什麼?" 的問題,一名大廠大模型研究人員告訴記者,目前判斷一個大模型是否強大,還是基于指定評估數據集和用戶日常聊天體驗,但文本長度普遍有限,這限制了商業價值。在實際應用中,很多時候需要考慮的是需處理的巨大信息量。如果大模型能解決長文本問題,潛在價值是巨大的,例如投喂财務數據輸出完整财報、投喂大量病例情況讓大模型幫助解決醫學問題。
" 但值得注意的是,長文本擴展并不一定意味着實際效果足夠好,還需要有足夠理解能力以及對人類指令的遵循能力,文本之外,影像及文本大模型有更多 token 需要處理,需要足夠長的上下文能力支持。除文本的長上下文外,要實現 AGI(通用人工智能)還需要有同時處理時空物多維度信息的能力。" 上述研究員說。
而對于目前 " 與哪些上市公司展開合作 " 的問題,月之暗面并沒有正面回復。該公司負責人對記者表示,其開放平台是面向所有開發者和企業用戶開放的,任何合規的開發者和企業都可以将 Kimi 智能助手背後的同款大模型 API 接入到自己的產品或服務中,基于 Kimi 大模型卓越的長文本處理和指令遵循能力,更新或打造新的產品或服務。
國内大模型哪家強?
國内大模型發展至今,不少應用已經逐步走入 C 端,但國產大模型理解能力如何?能理解長文本并給出高質量回答嗎?第一财經記者今日實測了包括 Kimi、智譜清言、通義千問等國内幾大主流大模型產品。
在評測後,記者發現,一些大模型還不支持長文本輸入或不支持較大的文檔上傳,Kimi、通義千問在解讀财報、研報、論文方面的能力較好,但 Kimi 有時會因 " 高峰時段忙碌而暫不回復 ",智譜清言則犯過将非上市公司列入股票行列的錯誤,文心一言對諸如選股、找最新報告的要求有時不直接回應且出現過核心信息遺漏問題。
為測試對較長且較專業文本的理解和信息提取能力,記者還實測了 Kimi 和其他國内大模型在提取論文和研報信息的能力。
近日騰訊與清華大學、 香港科技大學聯合發布了一個圖生視頻模型,記者将該模型相關英文論文交給 Kimi 和通義千問、文心一言、智譜清言和訊飛星火,要求分析核心内容和論文實現方法,Kimi 和通義千問都給出詳細解答。其中,Kimi 點明論文貢獻、相關模型的框架和實現的關鍵步驟,關鍵詞匯還附帶英文名詞标注,通義千問除了實現方法外,還解答了實驗方面研究者如何進行評估。此外,将論文發給訊飛星火 app 後,訊飛星火給出較短的文檔摘要,但不如 Kimi 和通義千問詳細清晰,且訊飛星火對記者的提問表示 " 在文檔中沒有找到與提問相關的内容 ",訊飛星火網頁端對 20M 以上文檔上傳則有限制。
此外,智譜清言限制上傳檔案大小,記者希望上傳的論文超過 10M 限制,記者復制論文内容至對話框, 但很快也超過限制字數,無法發出文字與 AI 對話。文心一言同樣限制文檔大小且限制對話框文字長度,導致無法對文檔進行分析。
對于哪個國產大模型能讀懂研報并給出投資建議?記者将兩份不同券商發布的關于人形機器人行業的研報交給 Kimi、通義千問、訊飛星火、文心一言、智譜清言,其中一份長達 50 頁,記者要求大模型分析哪些機器人股票比較有潛力,并要求挑出兩只可考慮買的股票。
測試結果顯示,Kimi 和訊飛星火均給出 10 家有潛力的個股并分析原因,記者追問 " 如果要挑兩只股票買,哪兩只比較好 ",Kimi 和訊飛星火給出了兩只個股并解釋原因,同時提醒股票投資風險或建議咨詢财務顧問意見。通義千問則按產業鏈不同環節分列 20 餘只有較高投資潛力的個股并解釋原因,根據研報資料挑選出兩只股票,同樣給出投資風險提示并建議尋求專業投資顧問的意見。值得注意的是,通義千問和 Kimi 挑出的兩只股票中,有一只是相同的,Kimi 和訊飛星火挑選出的兩只股票也有一只是相同的。
即便是給出了風險提示,但這樣的結果也讓部分券商分析師感到不安。" 如果将概念股的信息通過某些渠道加大投喂力度,這是否會引起搜索結果的導向出現偏差,引發較高的投資風險,目前不得而知。" 某分析師說。
從記者評測的結果看,智譜清言給出 5 只潛力比較大的個股中,其列出的公司中有一家并未上市。文心一言則表示,產業鏈一些環節的公司具有潛力,但沒有列出具體個股并逐個說明原因,且未直接回復 " 買哪兩只股票好 " 的問題,而是列出通用的選股策略。
在财報解讀方面,第一财經記者将 B 站 2023 年财報 PDF 文檔(700kb)上傳至大模型對話視窗,并讓 AI 幫忙解讀财報的核心内容。随後,Kimi 分段給出了财務摘要數據和管理層評論,列出了淨營業額、廣告業務收入等主要财務數據;智譜給出了一段财務數據内容,且是原文繁體字,沒有轉成簡體中文,而其他家都給出簡體中文的回復;通義千問則分段給出了财務數據、業務數據、業務亮點與戰略執行、成本與開支控制等内容,從财報内容解讀的全面性和有用性方面來說,較為突出;文心一言給出了不同業務的營收數據,但核心信息淨虧損有遺漏,其他大模型沒有出現這個遺漏。
記者随後試圖同時上傳 2022 年與 2023 年兩份年報讓 AI 對比,智譜清言、文心一言僅支持上傳一份文檔,Kimi 試了幾次都顯示輸出失敗,表示 " 和 Kimi 聊的人太多,Kimi 有點累了 ";通義千問給出了兩份年報的核心變化,提到了關鍵的日活破億、毛利率提升、成本結構改善以及虧損收窄,表現較為突出。
翻譯場景上,記者以前段時間 Sora 的技術文檔為例,其中涉及不少技術名詞,讓 AI 進行翻譯。記者先直接發送網頁鏈接讓 AI 翻譯,Kimi 仍然輸出失敗,通義千問和文心一言不支持網頁翻譯;智譜支持網頁翻譯,但只翻譯了部分核心内容,記者進一步要求其翻譯全文,AI 回復稱 " 由于版權和長度限制,無法提供完整的翻譯 "。
随後記者復制了部分關鍵内容考驗各家大模型的翻譯能力,從輸出結果看,對于大模型訓練(training)、擴散模型(diffusionmodels)、LLM、patch 這些專業名詞,相比翻譯器來說,各個大模型都表現得更加智能,但從閱讀流暢性、智能分段這種指标來說,智譜略微勝出。
如果要輔助工作學習,這些大模型能起到多大作用?為測試這個能力,記者向 Kimi、通義千問、文心一言提出 " 查詢關于深度學習的最新研究報告 " 的要求,結果顯示,Kimi 能給出較好回復,但還不是非常 " 新 ",其他兩個模型未給出對應内容。Kimi 提供的具體報告内容鏈接中,三篇中的兩篇來自 2022 年——一則來自知乎,一則來自新華網,還有另一篇來自《計算機應用研究》,未有明确時間标注。此外,通義千問回復 " 作為離線助手,無法實時查詢互聯網上的最新深度學習研究報告 ",并給出幾項學術期刊、學術會議推薦。文心一言直接從引言、算法創新、模型優化、應用場景拓展、市場與產業分析等角度給出歸納,但并不符合 " 最新研報 " 的訴求。
涉及日常生活的建議,Kimi、通義千問和文心一言給出答案的差距則不太大。記者提出 " 一位 30 歲、60KG、165cm 的女性想要達到健身目标,該如何進行鍛煉計劃制定 " 的問題,Kimi、通義千問、文心一言均從目标、鍛煉計劃、飲食、休息等幾方面給出全方位建議。
能趕上 GPT4 嗎?
Kimi" 引爆 " 概念股,一定程度上顯現資本市場對國產大模型能力躍進的期待。此外,近期國產大模型密集發布,廠商最頻繁使用的一個詞匯是 " 逼近 ",強調自身技術實力 " 逼近 GPT4"。資本市場聞風而動、大模型密集發布背後,國產大模型能趕上 GPT4 了嗎?
一位人工智能行業人士對記者表示,由于目前大模型企業之間并無明确的對比項目,大多通過打榜的形式來佐證自身實力,因此無法通過嚴謹的第三方數據來區分廠商之間的技術差距,但可以明确的是,自從 OpenAI 将 GPT4 閉源後,國内廠商與其差距目前仍較大。
多名業内人士也提到過國内廠商與矽谷廠商之間的差距。智象未來創始人兼 CEO、加拿大工程院外籍院士梅濤表示,從通用大模型的角度來說,中國廠商與矽谷廠商之間的差距有被拉大的風險,原因包括人才密度問題、資源問題。2023 年,中國初創公司做通用大模型的公司用一千張卡的資源來對标 ChatGPT3.5,今年則用萬張卡級别資源對标 ChatGPT4,而矽谷目前已經考慮十萬級甚至百萬級的卡做對應的事情,對比缺口比較大。
相對來講,梅濤認為多模态生成式領網域的對比差距相對好一點,不論是 Sora 還是 Midjourney,這個領網域生成式模型基本上參數都在百億級規模左右,該規模搭配千張卡左右的資源,創業公司通過早期融資還是可以實現的。對這個差距沒有那麼大的領網域,梅濤認為中國企業應優先考慮的是如何在產業化方面做好產品迭代以及商業化,這些角度中國廠商很有可能比國外企業更快更敏捷。
瀾舟科技創始人兼 CEO 周明認為,目前中國在大模型算法上原創技術能力并不差,但在頂層設計上可以跟美國學習,或比美國做得更好。周明認為國内缺乏一個國家機制或聯盟體來定義一個大模型未來發展的必要趨勢。這個問題一旦解決,中國的人才便可以快速突破瓶頸,雖然算力不足的問題尚存在,但通過算法或應用發力,可以彌補算力不足的問題。
此外,周明認為國内大模型企業要跟國家的發展大趨勢配合,而非一味去與美國相關企業看齊。他稱,很多國内大模型企業只知與美國企業看齊,亦步亦趨,後者提出一個技術點,國内便想要跟上或進行改良。更合适的動作應從綜合趨勢上進行推進,最為重要的是應用驅動。中國大模型相關企業與美國企業相比,在應用場景等方面雖然沒有大的優勢,但也不占劣勢。如果在場景和應用角度去反向驅動各個應用,推動國家經濟和生產力各個方面提升,中國基礎創新能力有可能在下一輪 AI 創新中引領國際潮流。
談及近一年人工智能領網域的動态,中關村數智人工智能產業聯盟理事長,原小米集團副總裁崔寶秋是興奮的,他稱,看好大數據和深度學習帶來新一代 AI 技術的快速發展。從時間線上來看,一年多前大模型的發布仍存在 " 胡說八道 " 的問題,讓人感覺很不靠譜。但在 2023 年,崔寶秋去到美國,接觸大模型最新技術前沿,令他感受到新的時代到來,雖然大模型技術目前是美國引領,但中國企業也在快速跟進。
梅濤近一年也在頻繁往返中國與美國矽谷,在他看來,最新的體感就是中美生态确實不太一樣,例如在投融資方面,不管是融資還是公司的估值方面,中美企業之間的差距是巨大的,特别是融資的環境,希望今年有所改變。
另外,雖說 2024 年是創新元年,但就遍地是黃金嗎?周明認為不是,國内大模型領網域很多地方都沒有開拓出來,比如大模型如何結合最後一公裡、大模型的商業模式是什麼、如何加強交付能力、提高產品的标準化,這些才剛剛開始,方興未艾。