成立996天的MiniMax主動揭開神秘面紗

今天小編分享的互聯網經驗：成立996天的MiniMax主動揭開神秘面紗，歡迎閱讀。

作者 | 劉寶丹

編輯 | 黃昱

作為國内最受追捧的 AI 獨角獸之一，MiniMax 在這波 AI 大模型浪潮中成為不可忽視的存在。

近日，MiniMax 在上海舉辦了一場主題為 "2024 MiniMax Link 夥伴日 " 的活動，創始人闫俊傑分享了基于 MOE（混合專家模型）+ Linear Attention（線性注意力）的新一代模型技術的應用，并展示了公司最新的音樂模型、視頻模型的研發成果。

這是 MiniMax 第一次主動發聲。在成立 996 天後，這家國内估值最高的 AI 獨角獸公司試圖講清楚自己正在做的事情。

縱觀全球，AI 大模型仍處于激烈的技術競賽當中，這也是 MiniMax 當前最重要的事情。

闫俊傑對華爾街見聞表示，" 目前的階段，最重要的東西還不是商業化，是真正地對技術到達廣泛可用的程度。"

會上，MiniMax 推出基于 MOE+ Linear Attention 的新一代模型技術。據闫俊傑介紹，在與 GPT-4o 同一代模型能力對比上，新一代模型處理 10 萬 token 時效率可提升 2-3 倍，并且随着長度越長，提升越明顯。

" 相比于通用 Transformer 架構，新架構的原生線性計算復雜度大幅減少了大模型的訓練和推理成本。在 128K 的序列長度下，新架構成本減少 90% 以上。" 闫俊傑如是強調。

MiniMax 是中國首個研發 MoE 大語言模型并持續在模型算法上做創新的公司，這背後體現的是公司對技術路徑的判斷。

闫俊傑表示，不管是做 MOE 還是 Linear attention，還是其他的探索，本質上還是讓同樣的效果模型變得更快。" 快意味着同樣的算力可以變得更好，這是我們底層做研發的思路，除了 Linear attention、MOE，可能還有一些其他的比較有價值的事，我們也在探索。"

同時，這也是 MiniMax 推出 AI 大模型產品和功能的支撐和底氣。

MiniMax 首次推出視頻模型和音樂模型，由此，公司在模型產品的布局上囊括了文本、語音和視頻，成為布局最全面的 AI 創業公司之一。

具體來看，MiniMax 視頻模型具有壓縮率高、文本響應好和風格多樣等優點，可生成原生高分辨率、高幀率視頻。

闫俊傑表示，" 視頻這次确實取得很大的進展，我們内部來評測，包括跑一些分，應該比像國外 Runway 有更好的效果，這個東西只是我們的第一版，很快還會有更新的版本。"

MiniMax 的第一款音樂模型，可以合成純音樂，為制作人快速構建歌曲的基本結構，由歌手自由演繹主唱或和聲部分。據悉，MiniMax 語音模型已實現對粵語、日語、韓語、西班牙語等多語種支持的更新。

目前，MiniMax 音樂生成模型與視頻生成模型已經在開放平台和海螺 AI 網頁版上線。闫俊傑透露，abab 7 系列文本模型将于未來數周内正式發布，并采用新一代創新技術。

對于外界最關注的商業化問題，MiniMax 也給出了清晰的思路。

闫俊傑表示，整個公司的商業化基本上抽成兩個形式，一個是開放平台，現在已經有兩千多家的客戶；第二點，在公司產品裡面也有廣告的機制。

對于視頻模型的商業化考慮，他表示，再等一兩周，更新後達到一個更加滿意的狀态之後，可能會考慮一些商業化。

一個重要的參考标準還是產品能力。MiniMax 國際業務總經理盛靜遠表示，對國内市場 2B 或者工具類，現在的思考是不斷地把偏工具類的產品，比如海螺，打磨出新的功能，直到有用戶粘性。

對 MiniMax 來說，用戶粘性是考慮 ROI 和 retention 的前提條件。顯然現在還不是時候。

"ROI 會有轉起來的一天，但不是今天的產品形态。" 盛靜遠直言，今天的產品形态，作為一個普通的消費者，沒有任何的忠誠度可言，一旦收費，消費者就可以換到另外一個產品，這個模式是不成立的。

在經過了一年多的技術狂奔後，AI 大模型創業公司已經開始進入產品競賽階段，随着 MiniMax 多模态產品的發布，也将行業的競争帶入新階段。

以下為對話實錄（經編輯）：

問：最近《黑神話悟空》很火，MiniMax 會把 AI 生成視頻應用在遊戲裡面嗎？

闫俊傑：《黑神話悟空》是傳統的建模渲染的方式，基于視頻生成的方式至少提供一種可能性，并且原則上來說上限會更高，基于渲染的方式，進步速度很慢。

生成視頻跟生成文本是一樣的，2 年前可能完全不可用，現在變得可用。現在大家看到的效果，不管是我們做的，還是可靈做的，還是 Runway 做的，還是 Open AI 做的 Sora，都只是一個開始，這只是第一年，接下來的進步速度一定會變得非常快。

我不太知道能否替代掉傳統的渲染引擎，但是至少能夠提供一種可能性，因為進步速度快，越長期看，進步越快的東西就越好。

問：有人評價，公司 AI 智能的算法還是比較厲害的，請介紹一下生成視頻算法的事情。

闫俊傑：視頻最主要解決的問題是這樣的，比如說為什麼我們的推出，比可靈要晚一兩個月，核心是我們在解決一個更難的技術問題，如何能夠原生的訓練算力比較高的東西，這件事情為什麼這麼難？在訓練視頻生成能力的時候，也需要先把視頻變成一些 token，視頻變成的 token 會非常的長，非常的長之後越長復雜度就越高，之前的方法是平方的關系，我們其實算法上主要幹的事是說怎麼樣把復雜度往下降低一些。壓縮率變得更高，這個事花了我們很多的精力，就晚了一兩個月。

現在也看到了收獲，當你真的把算法變得更好的時候，确實是有一個更好的效果。不管是視頻、文本、聲音，核心的東西都不是說找一個算法提升 5%、10%，比較重要的是找一個東西能不能提升幾倍，如果能提升幾倍就一定要做出來，如果只提升 5% 就不太值得做，這個就是我們做研發的思路。

問：後續是在哪個方向迭代？

闫俊傑：數據、算法本身，包括更加方便使用的細節，比如說現在只提供了文生視頻，比如圖生視頻，文 + 圖生成視頻，可編輯的可控性這個事都會陸續出來。

問：今年視頻生成賽道非常激烈，MiniMax 為什麼要做視頻生成，對你們整個布局來說有什麼必要性嗎？然後挑戰和難點。

闫俊傑：在人類社會大模型的核心意義做更好的信息處理，大部分的信息體現在多模态的内容裡面，而不是體現在文字上。

為了能夠有高用戶覆蓋度和使用深度，唯一的辦法是能夠輸出動态的内容，這是一個非常核心的判斷。之前我們先做出來文字，又做出來聲音，其實很早做出來了圖片，只是現在技術變得更強，把視頻也做出來。這個路線是一以貫之的，一定要能夠做多模态。

問：挑戰和難點呢？

闫俊傑：首先這件事還挺難的，如果不難，不會全球只有兩三家公司能做得很好。

難點在于有些獨特的東西，然後有些可以復用的東西。獨特的東西在于視頻，工作復雜度比做文本更難，因為視頻的 context 的文本天然很長，比如，一個視頻是千萬的輸入和輸出，這天然就是一個很難的處理。其次，視頻量很大，比如看一個 5 秒的視頻有幾兆，但 5 秒看的文字可能都不到 1K，這是幾千倍的存儲差距。

挑戰在于，之前基于文本建的這套底層基礎設施怎麼來處理數據，怎麼來清洗數據，怎麼來标注，對視頻上都不太适用，意味着基礎設施也需要更新。

還有的話是耐心，做文字有很多開源的東西，做視頻開源的東西沒那麼多，很多東西需要重新來做，需要付出的耐心也更大。

問：關于 AI 出海，想問一下 MiniMax 你們怎麼看出海這個市場的？

闫俊傑：其實我們國内用量不比海外小，但是我不太知道為什麼大家都只覺得我們出海做得好，其實我們的技術起來非常領先的，但大家總覺得我們產品做得好，我不太理解為什麼會這樣。

問：最近快手有推出飛船，整個產品風格有點類似于星野，從 MiniMax 的角度來說，國内還比較卷，怎麼能夠把我們自身的壁壘提升？

闫俊傑：這個事就是一個發展的客觀規律，作為一家小的創業公司來說，我們在競争中打不赢，那就應該被淘汰，其實也沒有其他的選擇。

我們能做的就是，覺得有可能變強的事無限地放大，兩點：一是技術如何提升，二是如何跟用戶做更好的共創，也就只有這兩點，這兩點都需要一些非常關鍵的判斷，需要靠非常長期的積累。

問：不知道方不方便透露投資人對 MiniMax 有什麼期待？包括阿裡和騰訊這邊，是比較在乎商業化的進展還是技術方面的進展？

闫俊傑：實際的情況是投資人不是一個人，投資人是一個組織，一個組織意味着大部分時候沒有一個統一的觀點，真實的情況就是這樣。

我們還是一家很小的公司，公司各種各樣的數據，盡管已經提升了很多，在某些領網域裡面有些優勢，相比這些大公司非常成熟的業務來說，占比都是非常小的，甚至可以說是不值一提。我覺得核心不是他們怎麼看，核心還是我們自己怎麼樣做得更好。

問：星野和海螺的用戶畫像分别是什麼樣的人？

闫俊傑：星野是一個很獨特的内容平台，是完全基于 AI 的一套内容社區，這個事在全球範圍都是挺獨特的。

抖音、小紅書、B 站、知乎都是一個社區，至少在 AI 内容社區這件事上星野還是做得比較靠前。AI 本質上是一種新的内容互動形态。

星野的用戶畫像二三線城市為主，年齡在 17-24/25 歲之間。海螺用戶畫像更泛一些，海螺本來就是工具型的產品。

問：目前很多星野或者 Talkie 上面的用戶，對產品的需求是想要一個很帥氣的對象陪伴我，但目前智能體，或者虛拟的角色很難進行深度的聊天和陪伴，會導致用戶的流失。像這樣一類的產品，會如何應對這樣一個問題？

闫俊傑：現在确實有這樣的問題，本質上就是模型不夠好，當前的模型沒有很長的記憶，理解不了特别復雜的指令就會這樣。社區是所有的互聯網產品裡面最難做的產品，這件事需要一步一步演化，不是一蹴而就。

問：之前 MiniMax 一直拿的是美元基金的錢比較多，後面哪些錢可以入場？如果這邊融資困難的話，會做哪些應對？

盛靜遠：一家公司真正的價值在于自身創造商業價值。今天講的 " 快就是好 "，也是在同等計算 GPU 的條件下，盡可能訓練更多的輪次，訓練更大的數據。經過幾次科研的突破，我們能以比較有限的資源做出一個在國際上，也能在第一梯隊的多模态的表現，這個我們目前還是比較驕傲的。

作為所有中國大模型公司裡面，基本上少數幾個能講商業化，能講變現，能講產品跟模型一起驅動，甚至很有可能在比較短的時間内實現自負盈虧以及盈利，這個是一個最有希望說，也最 sustainable 的一個方式。

最核心的還是技術突破，產品是技術突破的體現，這個產品能夠最終實現商業化，來反哺到後續的技術投入，這是公司真正轉起來的标志，可能我們現在在半山腰的狀态，如果做得比較成功，很快就能達到一個正向的循環。

問：怎麼判斷大模型技術，有什麼通用的指标嗎？

闫俊傑：技術好壞怎麼判斷這個事很難。我們也經歷過，當評價标準不夠好的時候，模型迭代有時候也會誤入歧途。我們目前用的方式，有可能也不是對的，至少我認為比較可能的方式是這樣的。

我們的開發平台大概有 3 萬多個開發者，付費的客戶就有幾千家，有些客戶對場景看重，要求保證產品效果，我基于這樣的場景構建一個測試級，還是比較客觀的，原因是這個測試級上所有的國產化模型都比 GPT4 差得很多，你看其他的排行榜基本上 GPT4 都要排到中間去了，但是在我們的排行榜上确實 GPT-4o 排在最靠前，包括我們的模型在内，所有的模型都跟 GPT4 有本質上的差距，而且越難的問題差距越大，這個是我們的評估方式。

至少按照這個評估方式來看，我覺得我們的提升空間還是挺大的。這個事每個公司有自己不同的思考。