今天小編分享的科技經驗:速度秒殺GPT們10倍,國外的DeepSeek時刻來了?,歡迎閱讀。
什麼?AI 界又整新活了?
這次雖然沒像 DeepSeek、Manus 們那樣搞得人盡皆知,但可能對 AI 界發展的影響還真不小。
前段時間,有個名不見經傳的小公司 Inception Labs 搞了個大新聞,說是開發出了全球首個商業級擴散大模型 Mercury。
而這個所謂的擴散大模型,可能會掀起一股浪潮,徹底颠覆大模型 3 年多來的基礎路線。
人家也實打實放出了數據,在一眾測試裡,Mercury Coder 基本是一路吊打 GPT-4o Mini 和 Claude 3.5 Haiku,這些大家都快用爛的模型了。
而且,這些同台競技的模型們,還特地專門為生成速度進行過優化,但 Mercury 還是比他們快了多達 10 倍。
不僅如此,Mercury 還能在 NVIDIA H100 芯片上,實現每秒超過 1000token 的處理速度,而常見的大模型想要實現這個速度,往往都得用上專門定制的 AI 芯片。
要知道,為了實現更高的 token 處理速度,定制化 AI 芯片幾乎成了各個廠商的新戰場。
除了速度超級超級超級快之外,我們也能從 Artificial Analysis 的測試坐标系裡看出,Mercury 的生成質量也是杠杠的。
雖然目前還不如頂尖的 Claude3.5 Haiku 等,但考慮到它是一目十行的效率,能保持這個生成質量已經是非常哇塞了。
我們也在官方放出的 Mercury Coder Playground 裡簡單試了幾個例子,一頓測試下來發現生成效果确實不錯,而且速度真的是極快。
提示詞:用 HTML5 寫一個貪吃蛇遊戲。
注意,這裡的生成錄屏動圖并未加速
提示詞:用 HTML5,CSS 和 Javascript 寫一個掃雷遊戲。
提示詞:用 HTML5 做一個 Pong 遊戲。
可能不少差友看到這估計決定,這也沒多牛啊,說什麼 AI 界可能要變天了?
Mercury 的厲害的點倒不是它的實際效果有多棒,更重要的是它給 AI 界帶來了一種新可能:誰說大語言模型就一定要走 Transformer 的路線?
在這個 AI 時代,Transformer 和 Diffusion 大家估計都聽得耳朵起繭子了,一會是 Transformer 單幹,一會是 Diffusion 單飛,又或者是兩者一起合作。
但本質上來說,這兩者其實代表了 AI 的兩個不同進化方向,甚至可以說,Transformer 和 Diffusion 的 " 思維 " 機制不同。
Transformer 是 " 典型 " 人類的鏈式思維,它有一個自回歸的屬性,就是它有個先後的概念,你得先生成了前面的結果,才能想出後面的玩意兒。
所以我們現在看到的 AI 生成,都是逐字逐句,從上從下一點點長出來的。
就像這樣(這還是加速過的生成速度)
而 Diffusion,則是反直覺的,直接從模糊去噪從而到清晰的過程。
就是你問他問題,他不會有整理邏輯,按 1、2、3、4…… 步驟回答你的想法,而是腦子直接想好了所有答案雛形,但這些答案全都是模糊不清的,然後一步步把所有答案一起變清晰,直到生成結果。
用生活裡的一個最常見的例子就是去配眼鏡,當你拿掉眼鏡看東西的時候,一整片都朦胧不清,但你确實都看到了,随着一片片鏡片加上去,最終你看清了每一個字。
所以 Mercury 生成的結果都是一大片模糊的亂碼,然後一頓 quickly quickly biu biu biu,ber 得一下就全搞定了。
就像這樣
關于這倆的效果對比,我感覺歷史上曾經有一個著名發布會上,有人曾用過更直觀的對比,可能更形象化地幫助大家理解。
CPU 就好比如今的 Transformer
GPU 就好比如今的 Diffusion
其實光從我們這麼簡單的描述看起來,大家也能明白,Transformer 的确是更符合大家邏輯的思維方式,所以在大語言模型剛爆紅的時候,基本就是 Transformer 一個人勇闖天涯。
但逐漸的,Transformer 開始展露自己的不足。
其中最讓人頭疼的就是,Transformer 的注意力機制看起來很優秀的背後,是計算復雜度指數級别增長。
計算復雜度的爆炸增長帶來了多方面的制約,比如模型推理速度顯著下降,在長文本、視頻等領網域,生成速度顯然無法滿足實際需求。
進一步的,復雜度不斷升高,所需要的硬體資源也同樣指數級增長,這種硬體需求阻止了 AI 真正走進大家生活。
所以一直以來,業界都在想着法地緩解 Transformer 模型的計算復雜度。
像通過量化、蒸餾、壓縮模型的 DeepSeek 能夠爆火出圈,其實也是建立在這種迫切需求上。
那 Mercury 的出現,似乎也在提醒大家,如果降低 Transformer 的計算復雜度太難的話,要不試試新路子?
而且 Mercury 背後的 Diffusion 路線,大家并不陌生。
比如早期爆紅的 stable Diffusion,Midjournery、DALL-E 2 裡,都看到了 Diffusion 模型的應用。
甚至還出現了像是 OpenAI 的 sora 模型,就是利用了 Diffusion Transformer 這種 Transformer 和 Diffusion 混合雙打模型。
雖然理想很美好,但 Diffusion 此前幾乎都被各路人馬判了死刑,因為他們覺得這貨駕馭不了語言模型。
因為 Diffusion 的特點是沒了自回歸,不用依賴上下文,從而可以節省資源,加快生成速度。
但這麼一來,生成精度有點難以把握,就像現在文生圖、文生視頻的各種模型,依舊難以控制手部、吃面條、文字等高精度的生成。
可這次 Mercury 的突破性成果,的确也第一次向大家驗證了,Diffusion 也能幹 Transformer 的活。
不過可惜的是,目前 Mercury 并沒有公開任何技術文檔,我們無法進一步得知它是如何搞定生成内容質量難關的。
但我們從它挑的對手比如 Claude3.5 Haiku、GPT4-omini、Qwen2.5 coder 7B、DeepSeek V2 lite 等等這些袖珍版大模型裡,也能看出來,顯然最強大的 Diffusion 語言模型 Mercury 也還沒法做得特别大。
甚至經過我們測試發現,除了官方推薦的提示詞生成效果比較精準以外,如果用一些自定義提示詞,它的出錯概率就高得有點誇張了。
而且生成的穩定性也相當一般,經常第一次生成效果還不錯,再測試一次結果反而不會了。
提示詞:用 HTML 畫出太陽系的模拟動畫。
但毫無疑問,Mercury 的成果是了不起的,特别在考慮到 Diffusion 在多模态生成上的強勢地位,也讓人不禁想象,如果 Diffusion 的路線才是 AI 大模型更正确的道路,未來的聯動進化好像更水到渠成些。
前不久,差評君剛看了一部名為《降臨》的電影,裡面的外星人就不是按照人類這樣 1、2、3、4…… 的鏈式思維邏輯,不同的思維方式顯然會帶來更多的可能性。
那問題來了,誰說 AI 就得要像人類一樣思考呢?對他們來說,是不是 Diffusion 的思考方式更符合 " 矽基生命 " 的屬性呢?
當然,這些都是差評君的瞎扯淡,不過有意思的是,Mercury 既是太陽系的水星,也是羅馬神話中的信使,他們倆的特點就是跑得飛快,而在占星學裡,它又代表着人的思維方式和溝通能力。
我們也不妨期待,Mercury 的出現,能給 AI 帶來新的路子。