今天小編分享的互聯網經驗:車企智算中心走到哪一步了?,歡迎閲讀。
圖片來源 @pixabay
2022 年 10 月 13 日,伴随聯想 HPC 温水水冷解決方案一期項目的正式完結,僅用 84 天,位于湖州長興的吉利星睿智算中心就将保有的傳統風冷機房改造為液冷機房。
钛媒體 App 走訪該智算中心注意到,該機房配置了當時最新一代英特爾 CPU 和英偉達 GPU 作為計算核心,其中 CPU 建設規模達到 4 萬核。同時,基于液冷方案下,單顆 CPU 性能 Linpack 效率達到 87.19%,最終實現實測算力 3.54PFlops,整體 PUE 值降到 0.8 左右。
該項目支撐了吉利汽車研究院在智能仿真平台上的業務運營,如工藝開發、物流仿真、新車型數字化動态仿真分析、三維仿真資源庫、輕量化展示平台等,為工程師們加快新車研發。為智能仿真平台提供強大算力也成為吉利面臨的最直觀問題之一。
這是吉利星睿智算中心在 2022 年建設期間的一抹瞬影。據後續統計,該智算中心雲端算力已達到 102EFlops,支持 AI 模型訓練速度提升超 200 倍;并發計算達 500 萬輛汽車;智駕模式研發 8 小時可完成 1000 個;語言大模型參數規模達百億 / 千億級;能源動力管理服務 BMS 智能電池;智能制造工業計算速度提升 600 倍。
從支持 AI 大模型訓練,到智能駕駛系統研發,再到電池安全及智能制造等產品全鏈條的智能化,算力已然成為其新質生產力。一些頭部汽車行業相關企業生态,顯然認識到這一點,事實上也在近些年掀起了一波自建智算中心 + 合作私有雲托管的浪潮。
大模型 " 上車 ",智算加快
據钛媒體 APP 觀察,在大模型應用變化的帶動下,車企對智算中心的建設需求,正迅速演變到基于 " 端到端 + 大模型 " 的技術方案,以支撐車輛研發及車本身的智能化。
以主機廠為代表,車企對端到端大模型的投入已有一段時間,并依據各自實力有所路徑分化。先一步完成算力基建和數據基礎車企更傾向于技術棧自研,一些車企也會選擇與 AI 廠商或雲廠商合作搭載上該技術方案。雲計算、AI 等科技企業,推出了不少面向汽車行業的 AI 產品和解決方案。
而端到端大模型 " 上車 ",目前主要圍繞智能座艙和自動駕駛兩個維度展開:智能座艙考驗人機互動體驗,不僅限于語音,還有視覺、手勢甚至情緒識别,以此洞察駕駛車主在不同環境中的需求;而自動駕駛,無論是輔助駕駛,還是全自動無人駕駛,更考驗汽車對外部環境感知、路徑規劃,以及汽車自身動力系統的判斷決策能力,從而保障對車輛駕駛的安全性。受限于大模型本身場景适用性和成本等因素,前者的產品落地性更強,後者價值性更高但也更難落地。
此外,偏用户側的用户體驗、運營環節,随着主機廠對直銷模式和子品牌的重視,市面上也出現了一些類似于 Agent 的營銷銷售助手。
研發和使用大模型,意味着要做訓練和推理。因而,任何一家車企必然面臨算力投入的挑戰,并且随着訓練數據和模拟仿真的極大突破,越來越依賴于算力。
特斯拉很早就開始這一方面布局。據最新數據,其 Dojo(道場)數據中心算力在今年 10 月已達到 100 EFlops,實現性能四倍提升,5 倍存儲空間節省。并且,為增強網絡帶寬和減少延遲,并減少對英偉達 GPU 的依賴,特斯拉還推出了專有 AI 芯片,用自研芯片配合以 CPU、GPU 為 Dojo 提供支持。" 未來 18 個月實現搭載一半特斯拉 AI 芯片,一半英偉達或其他芯片。" 今年 6 月,馬斯克發帖時指出。
2022 年開始,中國車企也加快對智算中心的建設步伐。除了上述的吉利星睿智算中心,還有長城汽車旗下毫末智行的 " 雪湖 · 綠洲 " 智算中心,小鵬汽車與阿裏雲在烏蘭察布合作建成的智算中心 " 扶搖 ",理想汽車和火山引擎共建的智算中心,長安汽車智算中心,比亞迪雲辇智算中心等等。
目前車企會聯合雲廠商共建智算中心,或者私有化部署并托管到雲廠商的數據中心上,如果車企在生态中缺乏某些 C 端軟體或工具鏈,也會采購雲廠商某些公有雲產品,典型的大混合雲架構體系。
被 " 逼出來 " 的異構智算
與 CPU 或多核芯片就能解決的通用算力、超算場景不同,智算并不局限于某些超算或高性能計算的認知,而是圍繞 GPU+CPU+ 其他 AI 加速器為主的異構或大計算。
出現該現象的原因是多方面的:
其一,由于高級側高端算力芯片的產能不足,以及供應鏈不穩定導致的卡脖子問題,尤其是英偉達 GPU 芯片被封禁的風險,車企往往會考慮到這一點,有選擇性地進行異構部署,從芯片到調度平台到模型框架、應用。
為了彌補這一點,會選擇跟國產芯片廠商合作測試,在細分領網域做國產芯片儲備,或者跟政府共建共享。
其二,客户業務場景融合導致需要多類芯片去承載。" 現在客户場景裏多種技術場景在融合,試圖從客户視角來拆解算力場景其實挺難的。客户場景不是單一的,客户的業務場景出現了融合,比如會考慮 AI 化、視頻化等等。" 國内某頭部雲廠商智算產品負責人此前對钛媒體表達。
而異構帶來的真正挑戰是 " 組合 "。由于受到更上遊英偉達等對于 GPU 及相關專用芯片的限制,即便适配國產芯片,那麼不同性能、不同場景下的異構方案将變得日常。
一位伺服器廠商負責人與钛媒體交流中指出,現在 GPU 廠商都會考慮到芯片互聯的問題,因為他們最早在設計之初并不是為大模型訓練服務的,要麼照着英偉達 4090 或 A100 直接抄。另外,英偉達是按 " 獨立集群 + 外置存儲 " 設計,同樣也會導致對 GPU 的利用率不高。而且,不同國產 GPU 廠家的能力也會有參差,用户需要有不同選擇去彌補這種參差。
目前 8 卡模組是英偉達專為大規模并行計算和深度學習任務設計的解決方案,市面上主流 AI 伺服器配置也基本按照 8 卡模組,這種設計方式也帶來了另一個需求:為了保證性能,需要高效的散熱設計和靈活的擴展性以及互聯通信能力。
一位雲廠商負責人對钛媒體表示,從綠色算力的角度,單顆芯片功耗越來越高,熱量達到一定程度時芯片密度是無法繼續擴展的,這種情況下,液冷技術是必然選擇。同時還要有綠色及性價比合适的電力供給。
钛媒體與浪潮、聯想、新華三等國内多家伺服器廠商負責人交流中也獲得了基本共同的戰略思路:布局異構算力,追求全棧液冷,提高算力效能。
事實上,智算中心從一開始就已經圍繞綠色和滿足市場供需作為建設底色。智算中心成本降低将是未來很重要的問題,這也将影響大模型的研發成本。
探索智算新模式
盡管車企智算中心建設已基本初步成型,但跟其他此前建設的智算中心一樣,與之相關的投入產出問題依然需要回答,或者説需求市場的波動性問題需要考慮在内。
中國電信研究院發布的《智算產業發展研究報告 ( 2024 ) 》顯示,截至 2024 年 6 月,中國已建和正在建設的智算中心超 250 個。國家級數據中心,各地方政府、運營商、互聯網企業都已參與到智算中心的建設中。
IDC 最新報告《中國汽車雲市場(2024 上半年)跟蹤》指出,從 2023 年一季度開始,企業為了縮減雲的長期支出,開始加大力度建設私有雲,但經過一年的嘗試後,多數客户發現在一些新型場景,如車聯網、自動駕駛訓練,公有雲相對于私有雲有更好的彈性、更高的使用效率及更優的使用體驗,雲資源的采購重心逐步回歸到公有雲。
對此,一位智算行業從業者為钛媒體分享了一則海外用户案例:Uber 最早也是自建數據中心,但在發展多年後放棄這一模式,開始與谷歌雲、甲骨文等廠商建立公有雲合作,從而平衡自建數據中心和公有雲的使用情況。在他看來,企業對智算中心的建設或者對公有雲的需求是動态變化的。在不同階段,根據自身的人才儲備、資金實力乃至當地政策支持情況,有不同的訴求考量。
近期,在異構智算生态產業聯盟主辦的活動中,中國智能計算產業聯盟秘書長、異構智算產業生态聯盟秘書長安靜指出一點:" 現在面臨的情況是,有很多智算中心、超算中心在建設,但算力應用上卻仍是一小部分,大部分算力仍處于閒置狀态。如何實現當地算力消納,需要從政策層面入手,調動現有算力應用;同時,很多地方規劃智算中心建設也需要有核心目标,去解決產業應用問題。"
算力已然成為車企發展的新質生產力。對内,主要支持車企生產研發提速,包括自動駕駛研發、仿真設計,以及在邊緣算力節點,針對制造工廠的支持;對外,主要面向消費者端的運營銷售如智能座艙等提供便利。
以本文開頭的吉利汽車為例。星睿智算中心的建設初衷,不是傳統 IDC 的建設思路,而是主要圍繞業務展開,怎樣建設能夠将需求自上而下得以滿足,業務價值才能真正讓平台價值體現。
其邏輯是,從底層算力到數據層,再到模型層的全面貫通,在此基礎之上再構建智能座艙、智能駕駛數據、售後服務、企業智能體等產品服務。最近的情況是,吉利研究院推出了語音合成模型、拒識模型、自然語言大模型、音樂理解模型、AI DRIVE 合成數據模型、多模态模型。歸根究底,是去實踐更大體量的算力應用場景。
而下一步,吉利汽車研究院人工智能中心主任陳勇回答媒體采訪中指出,大模型訓練和推理成本仍會持續下降,現在也并非最優解。在數據層面,構建高質量數據集,确保數據質量和完備性;在算法層面,将算法與應用場景結合,推動垂類應用場景;在算力層面,通過軟硬體融合,提升算力利用率和模型推理速度。
汽車已經不再是傳統的機械設備,而是可以實時互動的大型移動終端。每天,車輛產生大量的個性化數據,采集的傳感器數據、司機的駕駛軌迹、司機的駕駛習慣等,這些數據正通過雲化和數字化技術進行能效提升和标準化處理,一點點匯集起來,構築成為眾多車企邁向智能網聯時代的目标。(本文首發于钛媒體 APP,作者 | 楊麗,編輯 | 蓋虹達)