今天小編分享的科學經驗:14.9萬元,滿血流暢運行DeepSeek一體機抱回家!清華90後初創出品,歡迎閱讀。
滿血 DeepSeek 一體機,價格竟然被打到10 萬元級别了!
而且還不是量化版本,正是那個 671B 參數、最高質量的 FP8 原版。
或許有小夥伴要問了,那跑 DeepSeek-R1/V3 的速度,能跟官方一較高下嗎?
可以的,甚至是更快的那種。例如我們提個問題,來感受一下這個 feel:
一個漢字具有左右結構,左邊是木,右邊是乞。這個字是什麼?只需回答這個字即可。
△左:一體機;右:DeepSeek 官網
從視頻中不難看出,不僅答案精準,一體機的速度也是肉眼可見地比 DeepSeek 官網快上一些,粗略估計是已經接近了22 tokens/s。
那麼這個一體機到底是什麼來頭?
不賣關子,它就是由北京行雲集成電路最新推出的產品——褐蟻 HY90,具體價格定到了14.9 萬元。
而且除了產品,這家公司本身也是有不少的 " 标籤 " 在身上的,其中最為吸睛或許當屬 CEO 了:
季宇,清華 90 後博士、前華為 " 天才少年 "、計算機學會 CCF 優博獎得主。
那麼褐蟻 HY90 具體執行起更多任務時,又會是什麼樣的效果?
來,更多維度的一波實測走起。
實測 10 萬元級的 DeepSeek 一體機
我們先在褐蟻 HY90 部署 DeepSeek-R1,來測試一下它的推理能力。
有請 AIME 2025 的數學題:
Find the sum of all integer bases b>9 for which 17b is a divisor of 97b.
從内容生成的速度上來看,褐蟻 HY90 面對數學推理問題,依舊是可以保持接近 20+ tokens/s。
并且最終給到的答案也是精準無誤:70。
再來一道新版類似 "9.9 和 9.11 哪個大 "、"Strawberry 裡面有幾個‘ r ’ ",極度迷惑一眾 AI 的難題:
讓 7 米長的甘蔗通過 2 米高 1 米寬的門。
△左:一體機;右:DeepSeek 官網
速度依舊在線,并且這個問題已經是難不倒 DeepSeek,給出的答案也是正解。
而除了 DeepSeek 之外,我們還在褐蟻 HY90 上體驗了一把類似Deep Research的功能:
由此可見,無論是什麼類型的題目,褐蟻 HY90 都能以相對較快的速度絲滑處理。
不過有一說一,以往的一體機,即便是搭載 Q4 量化版本,成本動辄就要達到 200 萬元。
而褐蟻 HY90 在搭載滿血、未量化的 DeepSeek 情況下,不僅能夠保證速度,更是把價格打掉了一個數量級。
因此,接下來的一個問題便是:
如何煉成的?
在我們聊 " 如何實現 " 之前,且需了解一下" 什麼在阻礙 "。
首先,大家提到一體機,第一反應大概率就是 GPU,而它本身就或許構成了短板。
因為傳統 GPU 方案因顯存容量限制,例如 671GB 需求需多張 A100 顯卡,成本已經超過了百萬的級别。
而 CPU 方案則受限于内存帶寬,因為大模型推理需要頻繁加載參數(如 671B 參數的 FP8 精度模型占用約 671GB 内存)。
如果内存帶寬不足,就會導致計算單元(CPU 核心)長時間等待數據,形成 " 内存牆 "(Memory Wall),嚴重影響推理速度。
針對上述的短板,行雲的褐蟻一體機采用雙路 AMD 9005 系列 CPU,通過 1TB/s 的高内存帶寬滿足基礎推理需求,同時搭配一張中高端消費級 GPU 作為算力補充。
這種異構計算架構通過軟體協同優化,既解決了純 CPU 方案在部分推理階段的算力不足問題,又顯著降低了成本,将硬體投入壓縮至 10 萬元以内。
除此之外,行雲自主研發的推理引擎框架通過算法優化和任務調度,同樣對 token 生成速率起到了顯著的提升作用。
在 FP8 精度下,Decode 階段速度穩定在 20TPS 以上,且受上下文長度影響較小(128K 上下文仍保持 15TPS);Prefill 階段在 16K 上下文内首字延遲控制在 80 秒以内。
這種高效推理能力尤其适合需要連續生成大量 token 的場景(如 AI Agent),大幅縮短任務響應時間。
不僅如此,團隊還針對大模型運行需求,精準平衡了計算能力與内存帶寬,支持滿血 FP8 精度的 R1/V3 模型,并預留擴展能力,未來可支持 1.5T 參數量的模型。
通過參數壓縮技術(如 INT4 量化),進一步将 Decode 速度提升至 28TPS(1K 上下文),滿足不同場景對速度與精度的靈活需求。
據了解,團隊後續還将對 MoE 類的模型提供較好的支持。
褐蟻一體機的出現,可以說是改寫了行業的格局——
此前運行滿血 671B 模型需百萬級設備,而同類低配方案(如 32B/70B 模型)仍需 20-40 萬元。
行雲通過技術整合,将最高質量的模型體驗直接帶入 10 萬元價位,為中小團隊提供了低門檻、高擴展性的 AI 部署方案。
這一技術突破不僅實現了 " 高性能 + 低成本 " 的平衡,更推動了大模型在智能客服、數據分析等場景的普惠應用。
清華 90 後創辦的公司
最後,正如我們剛才提到的,行雲除了產品本身之外,創始團隊同樣也有不少的亮點。
首先就是創始人兼 CEO季宇,他本科就讀于清華大學物理系,後轉向計算機體系結構方向,獲得清華大學計算機體系結構博士學位。
在學術研究方面,他曾作為共同第一作者在頂級期刊《自然》(Nature)上發表計算機體系結構相關論文,并榮獲中國計算機學會(CCF)優秀博士學位論文獎(CCF 優博獎)。
△行雲集成電路創始人兼 CEO,季宇
在 2023 年 8 月成立行雲集成電路之前,季宇曾在華為海思昇騰芯片團隊,擔任昇騰 AI 芯片編譯器專家,負責多個昇騰編譯器項目,也曾入選" 華為天才少年 "。
在華為期間,正因長期專注于 AI 編譯器優化和處理器微架構等挑戰性問題,也讓他積累了豐富的 AI 芯片研發經驗。
除了季宇本人之外,CTO餘洪敏擁有深厚的學術背景和豐富的行業經驗。
他本科畢業于華中科技大學,後在中國科學院半導體研究所獲得博士學位。
在職業履歷方面,餘洪敏曾擔任百度昆侖芯、華為海思車載昇騰芯片等多款芯片的負責人,并曾在地平線擔任芯片研發總監。
他長期領導和管理超過 100 人的研發團隊,精通芯片研發設計全流程,具備豐富的實戰經驗——成功主導 10 餘款芯片的流片與量產,并多次推動先進工藝數據中心芯片的架構設計、工程實現及大規模商用部署。
值得一提的是,在去年 11 月份,行雲集成電路還得到了一眾明星資本的投資,包括智譜 AI、峰瑞資本、嘉御資本、春華資本、中科創星、同創偉業奇績創壇、水木清華校友基金等。
由此,從行雲集成電路成立至今的發展來看,是有產品,有團隊,更有市場的那種了。
但更重要的一點是,這家剛成立兩年的公司,一舉實現了一體機圈子裡類似的 DeepSeek 的 " 高性能 + 低成本 " ——
嗯," 中國初創 "的含金量還在持續上升。
一體機近期可從官方公眾号預約體驗,更多詳情見↓
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見