今天小編分享的互聯網經驗:成立996天的MiniMax主動揭開神秘面紗,歡迎閲讀。
作者 | 劉寶丹
編輯 | 黃昱
作為國内最受追捧的 AI 獨角獸之一,MiniMax 在這波 AI 大模型浪潮中成為不可忽視的存在。
近日,MiniMax 在上海舉辦了一場主題為 "2024 MiniMax Link 夥伴日 " 的活動,創始人闫俊傑分享了基于 MOE(混合專家模型)+ Linear Attention(線性注意力)的新一代模型技術的應用,并展示了公司最新的音樂模型、視頻模型的研發成果。
這是 MiniMax 第一次主動發聲。在成立 996 天後,這家國内估值最高的 AI 獨角獸公司試圖講清楚自己正在做的事情。
縱觀全球,AI 大模型仍處于激烈的技術競賽當中,這也是 MiniMax 當前最重要的事情。
闫俊傑對華爾街見聞表示," 目前的階段,最重要的東西還不是商業化,是真正地對技術到達廣泛可用的程度。"
會上,MiniMax 推出基于 MOE+ Linear Attention 的新一代模型技術。據闫俊傑介紹,在與 GPT-4o 同一代模型能力對比上,新一代模型處理 10 萬 token 時效率可提升 2-3 倍,并且随着長度越長,提升越明顯。
" 相比于通用 Transformer 架構,新架構的原生線性計算復雜度大幅減少了大模型的訓練和推理成本。在 128K 的序列長度下,新架構成本減少 90% 以上。" 闫俊傑如是強調。
MiniMax 是中國首個研發 MoE 大語言模型并持續在模型算法上做創新的公司,這背後體現的是公司對技術路徑的判斷。
闫俊傑表示,不管是做 MOE 還是 Linear attention,還是其他的探索,本質上還是讓同樣的效果模型變得更快。" 快意味着同樣的算力可以變得更好,這是我們底層做研發的思路,除了 Linear attention、MOE,可能還有一些其他的比較有價值的事,我們也在探索。"
同時,這也是 MiniMax 推出 AI 大模型產品和功能的支撐和底氣。
MiniMax 首次推出視頻模型和音樂模型,由此,公司在模型產品的布局上囊括了文本、語音和視頻,成為布局最全面的 AI 創業公司之一。
具體來看,MiniMax 視頻模型具有壓縮率高、文本響應好和風格多樣等優點,可生成原生高分辨率、高幀率視頻。
闫俊傑表示," 視頻這次确實取得很大的進展,我們内部來評測,包括跑一些分,應該比像國外 Runway 有更好的效果,這個東西只是我們的第一版,很快還會有更新的版本。"
MiniMax 的第一款音樂模型,可以合成純音樂,為制作人快速構建歌曲的基本結構,由歌手自由演繹主唱或和聲部分。據悉,MiniMax 語音模型已實現對粵語、日語、韓語、西班牙語等多語種支持的更新。
目前,MiniMax 音樂生成模型與視頻生成模型已經在開放平台和海螺 AI 網頁版上線。闫俊傑透露,abab 7 系列文本模型将于未來數周内正式發布,并采用新一代創新技術。
對于外界最關注的商業化問題,MiniMax 也給出了清晰的思路。
闫俊傑表示,整個公司的商業化基本上抽成兩個形式,一個是開放平台,現在已經有兩千多家的客户; 第二點,在公司產品裏面也有廣告的機制。
對于視頻模型的商業化考慮,他表示,再等一兩周,更新後達到一個更加滿意的狀态之後,可能會考慮一些商業化。
一個重要的參考标準還是產品能力。MiniMax 國際業務總經理盛靜遠表示,對國内市場 2B 或者工具類,現在的思考是不斷地把偏工具類的產品,比如海螺,打磨出新的功能,直到有用户粘性。
對 MiniMax 來説,用户粘性是考慮 ROI 和 retention 的前提條件。顯然現在還不是時候。
"ROI 會有轉起來的一天,但不是今天的產品形态。" 盛靜遠直言,今天的產品形态,作為一個普通的消費者,沒有任何的忠誠度可言,一旦收費,消費者就可以換到另外一個產品,這個模式是不成立的。
在經過了一年多的技術狂奔後,AI 大模型創業公司已經開始進入產品競賽階段,随着 MiniMax 多模态產品的發布,也将行業的競争帶入新階段。
以下為對話實錄(經編輯):
問:最近《黑神話悟空》很火,MiniMax 會把 AI 生成視頻應用在遊戲裏面嗎?
闫俊傑:《黑神話悟空》是傳統的建模渲染的方式,基于視頻生成的方式至少提供一種可能性,并且原則上來説上限會更高,基于渲染的方式,進步速度很慢。
生成視頻跟生成文本是一樣的,2 年前可能完全不可用,現在變得可用。現在大家看到的效果,不管是我們做的,還是可靈做的,還是 Runway 做的,還是 Open AI 做的 Sora,都只是一個開始,這只是第一年,接下來的進步速度一定會變得非常快。
我不太知道能否替代掉傳統的渲染引擎,但是至少能夠提供一種可能性,因為進步速度快,越長期看,進步越快的東西就越好。
問:有人評價,公司 AI 智能的算法還是比較厲害的,請介紹一下生成視頻算法的事情。
闫俊傑:視頻最主要解決的問題是這樣的,比如説為什麼我們的推出,比可靈要晚一兩個月,核心是我們在解決一個更難的技術問題,如何能夠原生的訓練算力比較高的東西,這件事情為什麼這麼難?在訓練視頻生成能力的時候,也需要先把視頻變成一些 token,視頻變成的 token 會非常的長,非常的長之後越長復雜度就越高,之前的方法是平方的關系,我們其實算法上主要幹的事是説怎麼樣把復雜度往下降低一些。壓縮率變得更高,這個事花了我們很多的精力,就晚了一兩個月。
現在也看到了收獲,當你真的把算法變得更好的時候,确實是有一個更好的效果。不管是視頻、文本、聲音,核心的東西都不是説找一個算法提升 5%、10%,比較重要的是找一個東西能不能提升幾倍,如果能提升幾倍就一定要做出來,如果只提升 5% 就不太值得做,這個就是我們做研發的思路。
問:後續是在哪個方向迭代?
闫俊傑:數據、算法本身,包括更加方便使用的細節,比如説現在只提供了文生視頻,比如圖生視頻,文 + 圖生成視頻,可編輯的可控性這個事都會陸續出來。
問:今年視頻生成賽道非常激烈,MiniMax 為什麼要做視頻生成,對你們整個布局來説有什麼必要性嗎?然後挑戰和難點。
闫俊傑:在人類社會大模型的核心意義做更好的信息處理,大部分的信息體現在多模态的内容裏面,而不是體現在文字上。
為了能夠有高用户覆蓋度和使用深度,唯一的辦法是能夠輸出動态的内容,這是一個非常核心的判斷。之前我們先做出來文字,又做出來聲音,其實很早做出來了圖片,只是現在技術變得更強,把視頻也做出來。這個路線是一以貫之的,一定要能夠做多模态。
問:挑戰和難點呢?
闫俊傑:首先這件事還挺難的,如果不難,不會全球只有兩三家公司能做得很好。
難點在于有些獨特的東西,然後有些可以復用的東西。獨特的東西在于視頻,工作復雜度比做文本更難,因為視頻的 context 的文本天然很長,比如,一個視頻是千萬的輸入和輸出,這天然就是一個很難的處理。其次,視頻量很大,比如看一個 5 秒的視頻有幾兆,但 5 秒看的文字可能都不到 1K,這是幾千倍的存儲差距。
挑戰在于,之前基于文本建的這套底層基礎設施怎麼來處理數據,怎麼來清洗數據,怎麼來标注,對視頻上都不太适用,意味着基礎設施也需要更新。
還有的話是耐心,做文字有很多開源的東西,做視頻開源的東西沒那麼多,很多東西需要重新來做,需要付出的耐心也更大。
問:關于 AI 出海,想問一下 MiniMax 你們怎麼看出海這個市場的?
闫俊傑:其實我們國内用量不比海外小,但是我不太知道為什麼大家都只覺得我們出海做得好,其實我們的技術起來非常領先的,但大家總覺得我們產品做得好,我不太理解為什麼會這樣。
問:最近快手有推出飛船,整個產品風格有點類似于星野,從 MiniMax 的角度來説,國内還比較卷,怎麼能夠把我們自身的壁壘提升?
闫俊傑:這個事就是一個發展的客觀規律,作為一家小的創業公司來説,我們在競争中打不赢,那就應該被淘汰,其實也沒有其他的選擇。
我們能做的就是,覺得有可能變強的事無限地放大,兩點:一是技術如何提升,二是如何跟用户做更好的共創,也就只有這兩點,這兩點都需要一些非常關鍵的判斷,需要靠非常長期的積累。
問:不知道方不方便透露投資人對 MiniMax 有什麼期待?包括阿裏和騰訊這邊,是比較在乎商業化的進展還是技術方面的進展?
闫俊傑:實際的情況是投資人不是一個人,投資人是一個組織,一個組織意味着大部分時候沒有一個統一的觀點,真實的情況就是這樣。
我們還是一家很小的公司,公司各種各樣的數據,盡管已經提升了很多,在某些領網域裏面有些優勢,相比這些大公司非常成熟的業務來説,占比都是非常小的,甚至可以説是不值一提。我覺得核心不是他們怎麼看,核心還是我們自己怎麼樣做得更好。
問:星野和海螺的用户畫像分别是什麼樣的人?
闫俊傑:星野是一個很獨特的内容平台,是完全基于 AI 的一套内容社區,這個事在全球範圍都是挺獨特的。
抖音、小紅書、B 站、知乎都是一個社區,至少在 AI 内容社區這件事上星野還是做得比較靠前。AI 本質上是一種新的内容互動形态。
星野的用户畫像二三線城市為主,年齡在 17-24/25 歲之間。海螺用户畫像更泛一些,海螺本來就是工具型的產品。
問:目前很多星野或者 Talkie 上面的用户,對產品的需求是想要一個很帥氣的對象陪伴我,但目前智能體,或者虛拟的角色很難進行深度的聊天和陪伴,會導致用户的流失。像這樣一類的產品,會如何應對這樣一個問題?
闫俊傑:現在确實有這樣的問題,本質上就是模型不夠好,當前的模型沒有很長的記憶,理解不了特别復雜的指令就會這樣。社區是所有的互聯網產品裏面最難做的產品,這件事需要一步一步演化,不是一蹴而就。
問:之前 MiniMax 一直拿的是美元基金的錢比較多,後面哪些錢可以入場?如果這邊融資困難的話,會做哪些應對?
盛靜遠:一家公司真正的價值在于自身創造商業價值。今天講的 " 快就是好 ",也是在同等計算 GPU 的條件下,盡可能訓練更多的輪次,訓練更大的數據。經過幾次科研的突破,我們能以比較有限的資源做出一個在國際上,也能在第一梯隊的多模态的表現,這個我們目前還是比較驕傲的。
作為所有中國大模型公司裏面,基本上少數幾個能講商業化,能講變現,能講產品跟模型一起驅動,甚至很有可能在比較短的時間内實現自負盈虧以及盈利,這個是一個最有希望説,也最 sustainable 的一個方式。
最核心的還是技術突破,產品是技術突破的體現,這個產品能夠最終實現商業化,來反哺到後續的技術投入,這是公司真正轉起來的标志,可能我們現在在半山腰的狀态,如果做得比較成功,很快就能達到一個正向的循環。
問:怎麼判斷大模型技術,有什麼通用的指标嗎?
闫俊傑:技術好壞怎麼判斷這個事很難。我們也經歷過,當評價标準不夠好的時候,模型迭代有時候也會誤入歧途。我們目前用的方式,有可能也不是對的,至少我認為比較可能的方式是這樣的。
我們的開發平台大概有 3 萬多個開發者,付費的客户就有幾千家,有些客户對場景看重,要求保證產品效果,我基于這樣的場景構建一個測試級,還是比較客觀的,原因是這個測試級上所有的國產化模型都比 GPT4 差得很多,你看其他的排行榜基本上 GPT4 都要排到中間去了,但是在我們的排行榜上确實 GPT-4o 排在最靠前,包括我們的模型在内,所有的模型都跟 GPT4 有本質上的差距,而且越難的問題差距越大,這個是我們的評估方式。
至少按照這個評估方式來看,我覺得我們的提升空間還是挺大的。這個事每個公司有自己不同的思考。