今天小編分享的科學經驗:為千行萬業開算力通途,為什麼是百舸?,歡迎閲讀。
2025,各行各業基于 DeepSeek 探索各自領網域的落地方式,由此開啓了 AI 智能化加速的新航程。然而,大模型應用落地是一個系統工程,技術與資源門檻高,還存在大量未知挑戰。
面對不确定的海浪,具備全棧能力的雲基礎設施,成為企業追逐 AI 的可靠巨輪。
大模型對雲計算基礎設施的需求,與傳統雲計算存在顯著差異。比如大模型訓練需要萬卡級 GPU 集群支持,且對多芯混合訓練效能和穩定性要求極高。傳統以 CPU 為中心的雲計算中心,需轉向以 GPU 為核心的智能算力架構,并實現算力資源的極致調度。
而百度智能雲與其他雲廠商最大的區别,就是一直是百度 AI 技術和業務的堅定支持者,常年在 AI 基礎設施上進行投入。上雲用大模型的需求爆發之後,百度智能雲迅速跻身中國大模型平台第一,領航 AI 雲市場。
這一成績的背後,離不開百度所有核心業務的算力底座——百舸異構計算平台。借助百舸的大規模推理加速能力,以及自研昆侖芯 P800 芯片,百度智能雲實現了算力性能與成本的雙重突破。
就在昨天,4 月 25 日召開的 Create 2025 百度 AI 開發者大會上,百度正式點亮了昆侖芯 P800 的三萬卡集群,發布昆侖芯超節點。僅有高性能芯片和大規模集群是不夠的,為了穩定、高效地釋放算力價值,百度智能雲也全面更新百舸推理加速能力。
雲計算的大船,正乘 AI 之風,揚時代之帆,迎來前所未有的增長機遇。這時候,有必要深入百舸内部,去窺探一下百度智能雲這艘 AI 巨輪的加速密碼。
為什麼破解算力短缺和計算成本高的問題,僅靠單體硬體和集群還不夠,需要平台級的優化助力?
縱觀 2025 年的大模型算力格局,前有 DS 技術突破,算力需求激增;後有海外進口芯片供應持續不穩定,算力焦慮始終存在。多元異構芯片的混合訓練,成為國内緩解算力荒的一個選擇。但異構芯片之間的協定生态不同,合池訓練難度大,對雲基礎設施提出了挑戰。
首先,集群規模更大,推理場景下快速定位故障并恢復,十分考驗超大規模集群的穩定性。
此外,異構芯片多樣,國内超萬卡集群多采用混合芯片方案,但不同架構合池訓練會出現性能損失。《AIDC 白皮書》顯示,業界頂尖的千卡智算集群,其算力利用率不超過 60%,萬卡集群不超過 55%。提高國產集群的資源利用率和算效,避免資源浪費,刻不容緩。
DeepSeek 之後,盡快用上 DS 等大模型,成為企業的當務之急,雲基礎設施承載的 AI 任務大幅上量。一方面考驗雲基礎設施的敏捷性,是否支持在雲上快速構建和進行模型迭代,無縫集成 AI 開源生态,也需要調優技術的加持,從而帶來極致的推理性能優化,降低推理成本。
可以説,AI 大模型深入千行萬業,上雲深度用 AI 的當下需求,進一步強化了多元異構計算平台的重要性和必要性。滄海橫流處,百度智能雲和百舸,已經做好了準備。
一場以 AI 為核心、多元異構算力為底座的雲技術競賽,就此拉開帷幕。百度智能雲率先點亮了昆侖芯萬卡集群,今年 Create 大會上,又正式宣布點亮 3 萬卡集群。那麼,百度是如何解決多芯混訓問題的?百舸平台,是核心驅動。
百舸作為超大規模 GPU 算力平台,可以對算力集群的 AI-IaaS 基礎資源進行調度,打造高性能 AI 基礎設施,支持高達 10 萬卡大規模集群,提供穩定、極速、高效的算力服務,滿足企業的訓練、精調、推理的全流程需求。
如果把 AI 雲基礎設施看作一艘航船,那麼百舸的存在,可以發揮幾個作用:
作用一,支撐更大的算力船身。百舸平台不僅有更強的單節點性能,同時通過昆侖芯超節點(高密整機櫃),把卡放在同一個機櫃裏,用更快的機内通信替代機間通信,降低機櫃之間通信的復雜性、高延遲和帶寬成本,從而支持超大規模集群建設。基于百舸,AI 基礎設施可以納管的算力資源規模大,提供更加充沛、穩定的智能算力。
作用二,提供穩定的 AI 體驗。當計算機群出現故障,每一次重寫 checkpoint,都會給大模型的開發和企業平添波折。百舸平台通過智能調度與冗餘設計,實現 99.5% 有效訓練時長,以分鍾級故障恢復能力,減少中斷,确保 AI 任務連續穩定運行。
作用三,為 AI 任務加速的高效動能。類 DeepSeek 的長思維鏈推理模型,增加了思考環節,需要輸出的 token 更多,如果吞吐速度不夠快,用户就需要長時間等待,AI 體驗很差。百舸的大規模分布式 PD 分離推理系統,可根據不同的模型特點,選擇最優的并行策略,做到 token 級别的 PD 負載均衡,同時結合算子融合、all-to-all 通信算子優化、異步 KV 傳輸、雙流編排等技術進一步提升 GPU 利用率,推理成本節省 95%,總吞吐提升 20 倍。同時,百舸還支持私有化部署。也就是説,無論是雲上調用推理模型,還是本地部署,百舸都可以保障高效實時的體驗。
可以説,在百舸平台的支撐下,百度得以打造堅固的異構算力底座,擁有了在大模型時代遠航的穩定推進力,在 AI 雲服務的競争中處于領先身位。
開年以來,AI 雲市場進入後 DeepSeek 時代,頭部雲服務商都在積極更新 AI 基礎設施及服務。百度能否長期保持 AI 雲的優勢,還取決于 AI 底座與產業的融合深度。
説到底,只有讓企業真正用上 AI,用好 AI,AI 基礎設施及 AI 雲服務才能煥發出最寬廣的價值。
如何幫助千行百業高效地接入 AI 算力與模型,打造自己的 AI 應用?百度智能雲 AI 計算部負責人、百度傑出架構師王雁鵬認為,支撐 AI 應用的創新大爆發,基礎設施必須讓算力不再成為瓶頸,讓算力唾手可得。全新更新的百舸,就是百度智能雲交出的一份答卷,可以用三個字來概括:
全。王雁鵬提到,面對 AI 模型的爆發,敏捷的基礎設施能夠支持各種芯片、模型、框架以及工具鏈。全新更新的百度百舸算力平台,不僅提供高性能的計算、存儲、網絡的基礎資源產品,也提供了一鍵式全站 AI 工程開發平台以及各類工具集,能夠一鍵建設資源池,一鍵部署開發環境,一鍵部署模型,把 GPU 的利用率發揮到極致,為各類開源模型帶來顯著的加速效果。
作為企業級的一站式 AI 工程平台,百舸覆蓋 AI 大模型的全周期、全流程,可以縮短 AI 開發周期,對于金融、互聯網等追求效率、時間敏感、競争激烈的行業來説,意義重大。比如百度智能雲攜手招行基于昆侖芯國產算力,接入開源模型,幫助招行快速提升了智能客服、多模态數據分析等場景的應用效能。
省。領先的 AI 工程硬核加速能力,也可以讓各領網域開源模型訓推成本更低、周期更短、故障更少,能夠同時支持成百上千的各種任務不中斷,大幅節省了企業的時間和資源成本。北京人形機器人創新中心的通用具身智能平台,就依托百度百舸 AI 異構計算平台和穩定可靠的 AI 算力基礎設施,進行模型訓練,為人形機器人打造更聰明的 " 大腦 "。
強。王雁鵬介紹到,把訓推系統的能力做到極致,充分壓榨出硬體的算力,是百舸一直以來追求的目标。百舸的原生 AI-IaaS 對接和管理能力,可以發揮出基礎設施最大效能,性能更強。
最近,百舸針對多模态模型以及智駕模型做了深度優化,在多模态模型上取得了 30%,在智駕模型上取得了 150% 以上的加速效果,助力更多行業、汽車企業等智能化降本增效。比如教育機構好未來,就借助百舸的隊列超發能力,充分利用集群閒時資源,整體資源利用率提升 10% 以上。
當一個企業打算落地應用大模型,百舸是一條更短、更省、更快的智能化航路。
在未知的海網域中探索,望向技術遠方的星辰,才能走在正确的方向上。十多年來,AI 指引着百度的航向,從未偏離航道,才能成為大模型時代 AI 與雲的領航人。
雲基礎設施 +AI 技術的優勢,讓百度智能雲在大模型時代快速增長,成為大量政企上雲賦智的首選。而百舸平台,也為緩解行業智能化的算力焦渴,發揮了關鍵作用。
早在百度押注 AI、大模型、昆侖芯的時候,就知道必須把多元異構計算集群掌握在自己手中,那麼百舸平台的出現,也就是水到渠成了。
進入 2025 年,國產大模型 + 異構算力,正在書寫智能中國的新篇章。我們已經從百舸身上,發現了百度繼續領航 AI 與雲時代的必要條件:
基礎設施完備。從昆侖芯,到百舸平台,AI 算力基礎設施底座是百度業務 AI 重塑的基本保障。
進化動能強勁。高性能優化技術,降本增效,支撐百度大模型、AI 應用等低成本高效迭代,持續進化,競争力不斷增強,避免掉隊。
商業邏輯清晰。AI 即服務、模型即服務的商業邏輯想要成立,必須持續優化 token 成本,帶給客户上雲用 AI 的真實價值,從而在用户規模和資源回報比上占據優勢。憑借百舸平台能力,新業務模式得以成立。
為千行萬業,開算力通途,屬于 AI 與雲的時代才剛剛開始。接下來,百舸支撐的 AI 雲基礎設施及服務,不僅是行業和企業加速擁抱 AI 的時代航船,也将是百度增長的主航道。