今天小編分享的科學經驗:火山引擎給大模型造大底座!MiniMax、智譜AI等已登陸,歡迎閱讀。
火山引擎剛剛交出大模型趨勢答卷:
火山方舟,一個大模型服務平台。
它将國内多個明星大模型放在平台上,如 MiniMax、智譜 AI、復旦 MOSS、百川智能、IDEA、瀾舟科技、出門問問等。
不僅為大模型玩家提供訓練、推理、評測、精調等功能與服務,後續還提供運營、應用插件等工具,進一步支撐大模型生态。
總之,就是要為大模型,打造一個超強底座。
而透過火山方舟,火山引擎如何看待大模型趨勢?想做哪些事?如今也有了更明确的答案。
火山方舟是什麼?
簡單理解,各種大模型平台都好比自營商鋪,向行業用戶售賣大模型服務。
不過火山方舟想做的不是自家專賣店,而是一個集合了多家大模型旗艦店的商城。
在這個商城裡,行業用戶可以快速觸及到業界優質的大模型,基于火山引擎的能力對模型精調推理,降低大模型使用門檻。
大模型玩家能基于火山引擎搭建穩健的大模型基礎設施,提升自家模型業務能力,觸及到更加直接和廣泛的行業需求,加速迭代更新。
火山方舟作為連接二者的平台,則負責提供豐富完善的開發工具、充沛算力、安全互信的平台以及企業服務等,讓雙方的合作更加絲滑。
重點功能包括 6 個方面,貫穿了大模型采購使用的全流程:
第一是模型廣場。
這可以理解為模型提供方和使用方初步了解的一個平台,大模型廠商能在此進行模型創建、上傳、部署等操作,下遊用戶能看到模型效果并快捷體驗。
第二是模型推理。
當用戶選定好模型後,火山引擎可提供安全互信的推理方案,既保障模型提供方的知識產權安全,同時也維護使用者的數據信息安全。用戶能直接使用已部署的在線服務,或者将精調模型部署為在線任務。
第三是模型精調。
對于大部分行業用戶來說,通用大模型只是基礎能力,想要使用更優質的大模型服務可能都需要基于自家數據進行持續訓練或精調。
火山方舟能提供極簡精調流程,只需兩步即可一鍵精調:選擇基礎模型→上傳标注數據集。對于有復雜需求的場景,還能進一步設定高級參數、驗證集、測試集等更豐富的功能。
第四是模型評測。
生成式大模型目前還很難形成一個業界公認的 benchmark,應用場景、數據等因素都會影響它的表現。但對于行業用戶來說,明晰不同大模型的優劣勢是購買服務前至關重要的一步。
所以火山方舟同步推出了評測工具,支持用戶基于自身數據、系統化地感知模型表現情況,并且給出詳細的測評報告,為後續做決策提供數據基礎。
要知道,B 端的使用場景也是 " 千人千面 " 的,企業要用自己的評測數據試一試,才能給出符合自身要求的準确評估。此外,基礎模型的更新,新技術新模型的湧現,還将持續很長一段時間。企業需要不斷測試對比、緊跟發展。
第五是運營幹預。
通過提供運營幹預工具,用戶可以快速設定相關規則,這樣在模型已經投入使用後,無需精調模型即可幹預模型輸出結果。
第六是應用插件。
目前大模型接入插件功能是大勢所趨,能進一步發揮模型能力。未來在火山方舟上,能看到實時信息獲取(通常說的 " 聯網 ")*、私網域文檔問答召回、Prompt 補全與構建等。
透過以上重點功能,不難看出火山引擎對于當下雲計算趨勢的理解——盡可能加速大模型應用落地。
而且在具體實現路徑上,火山引擎還給出了一種别樣的打法,并且形成了鮮明的自身特點。
火山引擎智能算法負責人吳迪給出了三個關鍵詞來總結:
開放、加速、信任。
所以火山方舟有何不同?
開放、加速、信任,三個關鍵詞一一對應,其實代表火山方舟的自身定位、算力和安全。
首先來看自身定位上,火山方舟是個開放、中立的平台,企業客戶可以根據實際效果自由選擇模型。
對于雲廠商而言,想要做好 MaaS 服務,核心之一肯定是模型層要夠豐富、夠強大。因為這意味着能在更豐富的應用場景中落地。
此前不少人将這一問題的解決,局限在了雲廠商自家大模型能力提升上。
随着亞馬遜雲推出大模型平台 Bedrock,一次接入 Stability AI、Anthropic 等多家大模型能力,給行業内開啟了一種新範式。
這樣一來,平台能直接引入業内最優秀的大模型,豐富自身能力和應用場景。
火山方舟的路徑亦是如此,納入更多大模型也讓它具備更高的靈活性。
吳迪介紹,這樣一來用戶能夠根據不同任務需求 " 貨比三家 ",接觸到更多行業先進大模型。
通過提供統一的 workflow,火山方舟能夠實現模型之間的靈活插拔。在多模型切換下,工作流基本不改變,讓各個模型完成自己擅長的任務,加速大模型的開發構建應用。
其次,火山引擎重點關注了大模型玩家們焦慮的算力問題。主打一個夠用、實惠且穩定。
火山引擎的海量資源池,能夠滿足當下大模型訓練推理的需求。
而通過加速訓練和推理,能讓算力的性價比更高。
NVIDIA 開發與技術部亞太區總經理李曦鵬表示,如果想要硬體充分發揮性能,需要軟硬體協同設計。
硬體方面,NVIDIA 針對生成式 AI 的不同硬體配置與火山引擎底層平台深度結合。
在軟體層面也提出了多種優化方法,雙方一起做了很多開源發布,以影像預處理算子庫 CV-CUDA為例。它們能高效地運行在 GPU 上,算子速度達到 OpenCV(運行在 CPU)的百倍左右。如果用 CV-CUDA 作為後端替換 OpenCV 和 TorchVision,整個推理的吞吐量能提升至原來的二十多倍,算子輸入結果上 CV-CUDA 與 OpenCV 完全對齊。
此外,火山引擎還推出了Lego 算子優化。
這一框架可以根據模型子圖的結構,采用火山引擎自研高性能算子,實現更高的加速比。
在推理場景下,使用 Lego 算子優化,可以将基于 Stable Diffusion 模型的端到端推理速度提升至 66.14 it/s,是 PyTorch 推理速度的 3.47 倍,運行時 GPU 顯存占用量降低 60%。在訓練場景下,在 128 張 A100 上跑 15 天,模型即可訓練完成,比當時最好的開源版本快 40%。
而在穩定性方面,火山引擎也和英偉達做了更底層的合作。
李曦鵬介紹,目前大模型訓練往往需要幾千、上萬張卡同時啟動,如果其中某台機器出現故障,則會導致整個訓練過程被影響。因此訓練過程中的穩定性非常關鍵,它将直接影響開發效率。
在這方面,火山引擎和英偉達基于内部大量測試,最終實現了特定模型的規模、網絡結構等,确定合适的 checkpointing 頻率,在保障訓練連續性的同時又讓機器能夠穩定運行。
具體能力也已有實際案例驗證。
大模型玩家 MiniMax 基于火山引擎,研發了超大規模的大模型訓練平台,高效支撐着三個模态大模型每天數千卡以上的常态化穩定訓練。在并行訓練上實現了99.9% 以上的可用性。除了訓練以外,MiniMax 也同步自研了超大規模的推理平台 , 目前擁有近萬卡級别的 GPU 算力池,穩定支撐着每天上億次的大模型推理調用。MiniMax 和火山引擎一起為大模型訓練搭建了高性能計算集群,一起致力于提升大模型訓練的穩定性,保證了超千卡訓練的任務穩定運行數周以上。
穩健的大模型基礎設施讓 MiniMax 從零開始自主完整地跑通了大模型與用戶互動的迭代閉環,實現從月至周級别的大模型迭代速度,和指數級的用戶互動增長。MiniMax 面向企業級的大模型解決方案目前已接入數百家企業客戶,打通辦公協作、智能硬體、教育、醫療、客服等十餘個行業場景。
然後是能力輸出上,火山引擎提出訓推一體以及統一 workflow。
統一 workflow 的能力不僅在于模型的靈活插拔,它還集成了火山引擎對大模型能力的理解。
比如如何做自動評估?pipeline 怎麼定?該做多少精調?這些問題都是需要經過大量開發工作後,才能輸出的經驗。通過這些細節上的保駕護航,企業用戶落地大模型的效率和成功率都會有明顯提升。
另一邊,火山方舟也重點提出了訓推一體的理念。
吳迪表示,基于對行業的觀察,他相信未來大模型領網域的頭部及腰部廠商都會使用 "1+n 模式",也就是自研或深度合作一個主力大模型、同時調用多個外部模型,對訓練和推理都有需求。
加之火山引擎始終認為深度學習、機器學習是一件統一、緊湊且純粹的事情,所以他們判斷訓推一體模式會是發展趨勢,并已在火山方舟上推出。
而且訓推一體化後,同樣能為企業節省算力。
最後再來看安全方面,這也是火山方舟着重強調的部分。
吳迪表示,在大模型時代,信任問題至關重要。
大模型提供方不希望自己辛苦訓練出的模型被人拷貝走,這屬于重要知識產權;下遊客戶不希望自己的數據在推理和精調過程中不被洩露,敏感數據只有自己可見。
在這二者之間,便會形成一個信任的 gap。尤其是當下大模型服務中的合作方眾多,構築信任牆就顯得至關重要。而火山引擎作為雲平台,會通過互信計算框架,基于不同客戶的安全和隐私保護訴求,提供了包括安全沙箱、可信硬體以及聯邦學習方案,來保證大家在互信的基礎上推理、精調等。
以上三個方面,将火山引擎在雲市場中的差異勾勒清晰。
從中也可看出,火山引擎的技術積累、行業經驗和趨勢理解,都為它入局大模型平台提供了堅實的保障。
那麼,為什麼火山引擎的答卷是火山方舟?
為什麼是火山方舟?
直接原因來自于市場需求。
大模型趨勢轟轟烈烈演進幾個月,幾乎觸及到了各行各業,相應的需求也随之暴漲。
但對于行業用戶來說,怎麼觸及市面上最先進的模型?怎麼選擇最适合自己的模型?怎麼确定最後的大模型服務方案?這些問題對企業自身的技術理解程度、開發水平都提出了要求。
作為供給側,大模型玩家也急于在熱潮下快速推進自家業務發展。這不僅是一場技術競賽,同時也是一場商業競速賽,誰能更快觸及更多用戶,就會在市場中更快站住腳跟。在這種情況下,平台的觸達能力一定大于廠商自身。
以及底層硬體廠商,同樣也迫切需要大模型底座。
NVIDIA 開發與技術部亞太區總經理李曦鵬表示,英偉達開發每一款新產品,都是以 workload 來驅動,所有開發都是要解決真實存在的問題。
比如随着深度學習的興起,用 Tensor Core 加速矩陣乘法計算,就是在原有框架下針對 workload 的重點模塊做效率提升。
再比如英偉達去年發布的 Hopper 架構,設計遠早于發布時間。當時 GPT-3 才剛剛問世,大模型趨勢遠沒有到來,英偉達是做了大量前瞻性的研究。而怎麼做出這種前瞻性的探索,就是要從實際應用的基礎結構中去發現問題。
回到當下來看,對于未來 AI 的趨勢是否朝着 GPT 趨勢發展,李曦鵬表示現在也無法确定,但是行業中的實際需求能夠推動英偉達做出更有針對性的硬體和軟體特性更新。
怎麼更快、更準确把握住這些需求?還是要依托平台連接大模型玩家。
所以,像火山方舟這樣承載着大模型供給方、使用方以及底層硬體廠商的平台,是行業迫切需求的。
而更深層的原因,還來自火山引擎自身。
吳迪很确定地說,火山方舟的使命,是加速大模型、大算力應用落地。
為什麼要加速?兩條增長曲線可以給出答案。
在以時間為橫軸、GPU 需求量為縱軸的坐标系裡,首先出現當下的第一條增長曲線:模型訓練曲線。
現在新興的大模型正如雨後春筍般冒出,訓練需求量飙升。但随着通用大模型市場趨于飽和,這條增長曲線也會逐漸放緩。
與此同時,還有一條增長曲線出現:推理需求曲線(模型應用曲線)。
而且它将在短期内呈指數增長趨勢,在 2025 年左右和訓練需求曲線相交,并在之後反超。
也就是說,市場上的推理需求量,最終一定會大于訓練需求量。因為推理需求多大,代表了應用場景有多豐富。
如果應用場景的豐富度不夠高,導致推理需求曲線沒有快速升起,訓練需求曲線同樣也會受到影響滑落。
一旦出現這一局面,将意味着目前諸多投身大模型浪潮的創業者和企業,将會面臨非常艱難的局面。
吳迪表示,火山引擎深信大模型趨勢不是一次簡單的浪潮,它将是新技術時代的一扇窗。如果想要加速這個時代更快到來,那麼就要盡可能縮短推理需求超過訓練需求的時間軸。
也就是加速大模型的應用落地。
火山方舟同時連接下遊應用層和上遊模型層、硬體層,加速企業用戶使用大模型,在營收上更快去回報大模型領網域創業者,以此形成一個加速正向循環。
而這也是為什麼火山引擎要将自家大模型平台取名為 " 方舟 "。
吳迪說,在想名字的時候,他們希望能有一個詞來形容開放包容、生機勃勃、充滿希望的意境。
最終在幾十個詞中确定了方舟。因為它能代表兩方面寓意。
第一,承載着很多人的事業和夢想,共同駛向一個成功的遠方,而且是一個具象的詞;
第二,火山引擎相信整個大模型、大算力領網域,需要眾多合作夥伴在模型訓練、内容安全、硬體優化等方面共同努力;
如今,方舟帶着火山引擎的技術積累、行業理解以及美好願景,正式啟航。
未來大模型浪潮将會如何翻湧,還是未知數。
但載着眾多國產大模型玩家、攜手英偉達的火山方舟,一定會帶着火山引擎駛向新的節點。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>