端側 AI 的硬體大潮襲來前，更應該了解特斯拉的成功故事

今天小編分享的财經經驗：端側 AI 的硬體大潮襲來前，更應該了解特斯拉的成功故事，歡迎閱讀。

文 | aiAR 研究媛

OpenAI 的神奇在邊際遞減。Sora 無法湧現真實世界的物理法則，成本和效用沒法商業閉環；o1 被推測的 CoT+RL 路線展現了強大的數學推理能力，但依舊争論不停，跟随者寥寥；GPT-5 聽不到好消息同時，壞消息先來了，OpenAI 的高層團隊和核心技術骨幹幾乎全部出走。

AGI 的終極遠景固然吸引人，在歷史級的天量資本投入和期待下，OpenAI 似乎都架不住，要從非營利性組織向正常企業「轉型」。

大模型從「中樞」走向「邊緣」

今年以來，有一股明顯的市場力量，驅動大模型向 PC、手機、汽車向這些邊緣端滲透，這些恰好也是人們工作、學習、生活、出行，最高頻使用的終端。

一個普通用戶每天產生的文本數據、影像數據、聲音數據，散落在各個終端，如果這些數據推送給大模型互動、處理，可以極大地提升我們工作學習的效率，帶入更便捷和更高質量的生活。

比如 AIPC，有了大模型 GUI Agent，可以做到用戶指令生成螢幕操作。大模型可以自動進行工作郵件和會議快速總結，讀取經營統計數據，瞬間轉換成 markdown 表格，長圖文在正确的提示詞互動下，快速生成指定匯報主題的 PPT。

AI Phone 相比 AIPC，多模态數據和應用為豐富。智能手機有 10 多種不同種類的傳感器，位置 GPS、攝像頭 cmos、加速度、氣壓計、麥克風陣列，手機能調用的 App 種類和數量也極為豐富，大模型被封裝成更高權限層級的個人助手，融入手機 OS，能實現自動化智能操作和高效互動。

智能汽車更進一步，各類傳感器數量高達數百個，可以控制的權限和實現的更復雜。智能汽車互動方式多樣，頻次多、粘性強、多模态數據規模大，大模型在這種復雜傳感器、多種互動和功能、融入了人際互動的移動空間，天然能夠重新組織、協調、梳理、關聯，将其整合成為一個高度智能的服務整體。比如通過語音和汽車交流，智能座艙基于大模型可以自動制作、控制、定向生成符合用戶情緒偏好的音樂、氛圍燈、影視内容，創造超級個性化的舒适智能空間。

從正常的商業視角審視，把最高頻的三個消費電子讓大模型接管或重鑄，想象力太太太大了。大模型公司有概率上演，當年蘋果和谷歌替換諾基亞、摩托羅拉，這種生态位切換的故事。

特斯拉的故事，給了一點啟示

當一種新的、截然不同的計算需求和設備形态出現的時候，同類的終端廠商和上遊的芯片廠商不一定能最快反應過來。

舉個離我們最近的例子。今天風光無限的 Elon Musk，全民偶像、超級極客、世界首富，助他真正登上神壇，是其創立的特斯拉改變了百年汽車工業。Musk 掌控下的特斯拉，早在 2014 年就發布了 HW 1.0，即特斯拉 Hardware Platform ，電動汽車中用于自動駕駛功能的計算和傳感系統。

特斯拉電動汽車的魔力，可能并非大膽采用了一系列眼花缭亂的、汽車巨頭不敢嘗試的 " 新技術 "。一體化壓鑄、線控底盤、松下動力電池、靈感來自伺服器分級管理的 BMS 電池管理系統，這些都可以被其他廠商快速模仿并掉價，但從 2014 年的 HW 1.0 更新到 2024 年的 HW 4.0，目标直指 Full Self-Driving，FSD，它可沒有容易被模仿和追趕了。

2018 年初，特斯拉深陷產能危機、面臨生死考驗時，馬斯克堅持研發 " 基于大規模神經網絡訓練的全自動駕駛方案 "。

凝視深淵的馬斯克，在 2019 年 4 月發布了 HW 3.0 硬體，兩顆 FSD 第一代自動駕駛 AI 計算芯片，紙面算力 7 倍于當時英偉達車端智駕芯片 Xavier。

車身分布幾個分辨率并不高的攝像頭，配合在車端本地運行、實時數據處理的智駕芯片，以及不斷上傳到雲端伺服器的駕駛數據訓練神經網絡，當特斯拉發展到 FSD v12 的時候，迎來了 " 端到端 " 的突破：：一端輸入攝像頭等傳感器捕捉的數據，另一端輸出復雜路況環境下的自動駕駛。

端到端的神經網絡，直接從大量真實的車輛駕駛、轉向、加速減速踩踏板、倒車、泊車等操作車輛的數據中學習，不是窮盡各種可能的駕駛路況編寫固定的規則和決策鏈路，而是在神經網絡的 " 黑盒 " 中直接輸出開放式環境下的駕駛動作。FSD v12 中，30 萬行規則代碼被減少到 2000 多行，不到原來的 1%，原有的 " 固定 " 規則不復存在。端到端方案的本質不同在于，攝像頭等傳感器獲得的原始信息沒有經過一環一環預設的、不同模塊的過濾和處理，而是直接傳遞到神經網絡，輸出駕駛 " 決策 "。傳感器信息的無損傳遞，模型從數據學習到更多的駕駛關聯和隐層信息，各種復雜場景不需要一一編寫規則，從而提升真實開放環境下的自動駕駛能力。

訓練神經網絡，學會像人類一樣的開車。這種底層能力的領先，一整套方案的構建，傳感器分布，視覺識别算法，Jim Keller 操刀的自研終端智駕芯片，Andrej Karpathy 主導開發的大規模自動駕駛神經網絡，還有多年實際運行大量人類司機上傳的天量駕駛數據，短時間内，是不可能有其他廠商能夠進行一一復制。

大模型上端，被忽略的東西

電動化、電氣化架構容易追趕，特斯拉把電動汽車另一個競争層次，智能化中的自動駕駛，帶到了一個新高度。早在 2014 年就推出的 HW1.0，這種遠見，從今天的視角來看，非常罕見。

因為下遊任務和需求的變化，傳導到上遊廠商，一般存在一個時間差。以上遊構成智駕系統最關鍵硬體的算力芯片來說，設計專門的微架構，推出專用芯片，通常情況下，一定是巨大的市場驅動。在產品還沒有跑出一個巨大的市場，沒有需求驗證的情況下，敢重構一個體系，并且積累先發優勢，直到今天特斯拉無法復制、難以撼動。

特斯拉的發展故事，對于今天的大模型上 PC 端、手機端，依然有很強的借鑑意義。

今天 AIPC、AI Phone 的熱潮，大模型融入最高頻消費電子終端，本質是改變了什麼？又需要提前布局，在什麼層面進行競争？

大模型運行在端側最大的優勢，有的人說，是數據本地處理，隐私和數據安全。但是雲端的能力明顯更強、更全面。隐私安全和能力更強怎麼取舍，現實情況，消費者更願意讓渡隐私換取方便。除非那種對數據安全有極高需求的垂直行業。

不依賴網絡和雲端算力的真正優勢，可能在于多模态的感知在終端本體實時進行、實時處理，當手機、AR 眼鏡、機器人需要大模型常駐，服務即時響應，端側模型的不可替代價值就顯現出來。你不可能等着圖片、長文本、視頻、聲音上傳雲端，推理計算，再返回結果，有兩次的網絡傳輸延遲。

在消費者日常高頻請求、高頻度推理的時候，調用設備自身的算力，幾乎沒有成本。在雲端每進行一次推理，完成一次任務，它的消耗卻不能忽略，如果雲端模型有天量的用戶，也意味着天量的算力儲備、電力消耗、帶寬需求，用戶量和互動請求的增長，伺服器集群也要跟着擴建。

并不是所有的任務都需要調用雲端的強大能力。壓縮在端側的小模型，随着模型能力發展，應該處理絕大多數高頻任務和請求，而且 On-device LoRA，幾乎等同于只懂你一人、只服務你一個人的大模型。

端側模型的趨勢不可阻擋。端側模型 always-on 的運行需求，已經開始主導硬體的演進。來自行業一線的基本判斷是，" 大模型在端側的落地，内存大小、帶寬的限制超過了算力限制。" 算力可以很大，但數據會成為瓶頸，芯片一定要和算法做聯合優化。

端側模型廠商、芯片廠商、終端公司，最近有一個明顯的趨勢，它們在共同優化端側模型在各種終端的運行。

之前，以雲端大模型見長、主走 B 端的智譜，下半年開始瞄準 AI Phone、AI PC，在 C 端的 AI 硬體上動作頻頻，官宣與中國三星合作，開啟與多家芯片公司的協作。同屬清華系今年年初開始 All in 端側模型的面壁智能，在完成了跟 MediaTek 最新一代旗艦移動 SoC 天玑 9400 的端側模型聯合調校之後，再與英特爾協作，兩家公司進行 MiniCPM 模型在酷睿 Ultra 二代旗艦芯片的部署支持、适配優化、計算加速。榮耀、vivo 這些終端品牌接連發布自研端側模型和跑在上層的應用。

端側模型和底層算力芯片，模型層和算力層的打通意義在于，終端推理的性能優化至關重要，經過優化的推理性能，以及芯片微架構的改進，可以較未經優化的原始性能提升數十倍。一個案例是，面壁 MiniCPM 在今年 9 月份這次和英特爾芯片的适配，相比 2 月份的 " 首次 "，僅隔半年，提速 169%。

現代的主流計算有三種體系，CPU、GPU 和 ASIC 思想下專門的 NPU。從軟體編寫的角度看，CPU 在通用性支持復雜指令和邏輯方面最強，高效率編譯的開發工作量最小。GPU 在硬體上比 CPU 更簡單，數千個針對單一任務的并行處理單元，線程最多，但是軟體編寫更難，CUDA 就是英偉達的長期耕耘才鑄造的高效率 GPU 程式開發壁壘。而 AI 計算加速，Transformer 原生優化的微架構，它需要非常大的矩陣乘法器，卻是少得多的線程來做高負載的數學運算，它的編譯難度是最大的。

大模型上端，早早着手硬體架構的演化，發展出在内存、數據處理帶寬、更高編譯效率的芯片架構，不僅僅是模型的壓縮和性能更強，算力芯片和模型的聯合優化，誰能提前布局、重視、乃至重構出一套體系，誰的勝算可能更大。

最後還是舉特斯拉智駕的例子。直到今天，發展端到端智駕系統各家廠商使出了渾身解數，打造智能汽車這一的關鍵能力，但是底層的智駕芯片廠商，針對端到端還沒有能拿出高算力、高帶寬、适用專用算法的 AI 計算架構，主要動作依然是在傳統架構下，優化制程工藝、提升 AI 算力。

如今國内車企主流使用的智駕芯片 NVIDIA DRIVE Orin 發布于 2019 年，地平線的征程 5 芯片發布于 2021 年。專用架構的 AI 芯片相較于通用芯片幾乎是碾壓式領先，若能基于端到端大模型優化和設計芯片，緊跟算法和模型的變化，必然能夠推動端到端技術的進步和領先。

底層芯片廠商遲遲沒有推出針對端到端大模型設計的芯片，在于端到端大模型真正爆火，還是特斯拉 FSD Beta V12.3 版本示範的。這種全新思維和體系的智駕系統，端到端大模型仍處于落地早期階段，對于行業上遊的底層硬體廠商還沒有起到深刻影響。

等上遊芯片終于推出了高效率的端到端智駕芯片，追趕上 FSD，這個時間差之内，特斯拉新的 FSD 芯片和積累的大量人類駕駛數據訓練的模型，恐怕又甩出追趕者一大截了。

很難有人能夠長期保持技術領先，窪地終究會被填平。但是提前構建一個體系，發展生态的好處在于，你在這個體系下積累了先發優勢，過去智能手機時代是 App，大模型上端時代，是專用 Transformer 的芯片的計算加速、模型編譯适配、數據和應用踩動的飛輪，時間積攢了強大市場推力，誰能從洪荒中覺醒，率先創世，誰可能成為新一代的巨頭。