百億tokens免費額度，清華系明星AI公司的羊毛薅起來

今天小編分享的科學經驗：百億tokens免費額度，清華系明星AI公司的羊毛薅起來，歡迎閲讀。

百億 token 補貼，4 月起免費！

這次的羊毛來自清華系 AI 公司無問芯穹，企業與個人皆可薅～

這家公司成立于 2023 年 5 月，目标是打造大模型軟硬體一體化最佳算力解決方案。

就在剛剛，它發布了基于多芯片算力底座的無穹 Infini-AI 大模型開發與服務平台，供開發者體驗、對比各種模型和芯片效果。

大模型浪潮湧起之後，有人調侃：

比起 " 造福人類 "，大模型更應該先呼籲 " 給我場景 "。

然而，無問芯穹認為，經歷了互聯網時代的高速發展，中國市場并不缺應用場景。

大模型的落地難，症結在于行業内正在持續遭遇的算力難題。

比起 " 給我場景 "，更應該先呼籲 " 解決算力 "。

而無問芯穹正在做的，就是這麼一件事。

讓開發者花小成本、用好工具和充沛算力

今天，無問芯穹發布了基于多芯片算力底座的無穹 Infini-AI 大模型開發與服務平台。

還宣布自 3 月 31 日起，正式開放全量注冊，給所有實名注冊的個人和企業用户提供百億 tokens 免費配額。

開發者可以在這個平台上體驗、對比各種模型能力和芯片效果。

通過簡單拖、拽各種參數按鈕的動作，就能精調出更貼合業務的大模型，并部署在無穹 Infini-AI 上；再以非常優惠的千 tokens 單價向用户提供服務。

目前，無穹 Infini-AI 已支持了 Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3 閉源模型、Llama2、Qwen、Qwen1.5 系列等共20 多個模型，以及 AMD、壁仞、寒武紀、燧原、天數智芯、沐曦、摩爾線程、NVIDIA 等10 餘種計算卡，支持多模型與多芯片之間的軟硬體聯合優化和統一部署。

第三方平台或自定義訓練、微調而來的模型也可以無縫遷移托管到無穹 Infini-AI，并獲得細粒度定制化的按 token 計費方案。

" 我們對模型品牌和芯片品牌的覆蓋率還會持續提升，随着時間的推移，無穹 Infini-AI 的性價比優勢會越來越突出。" 無問芯穹聯合創始人兼 CEO 夏立雪表示，未來，無穹 Infini-AI 還将支持更多模型與算力生态夥伴的產品上架，讓更多大模型開發者能夠 " 花小錢、用大池 "，持續降低 AI 應用的落地成本。

一個月前，同道獵聘在部分城市發布了 AI 驅動的數字人面試官產品，并且還有更多的 AI 功能正在籌備中。

這就是由無問芯穹提供的彈性算力使用方案，并在無問芯穹的平台上基于開源大模型微調而成。

相比市面上的其他方案，實現了更高的推理加速，也大幅降低了新功能上線的成本。夏立雪表示，這一效果讓無穹團隊很有信心。

因此，除了開放全量注冊，也正式啓動了大算力需求方的測試邀請，提供更具性價比的算力、且在算法和硬體上更有縱深的算力優化服務。

那些遇到算力難題的企業

想在成熟場景中應用大模型的企業，找到了算力但不會用，無法做出差異化的產品實現業務更新。

想創造 AI-Native 應用的企業，算力成本難負擔，工具鏈也不好用，產品啓動投產比不合理。

自行訓練模型的企業，随着業務的拓展，往往找不到也買不起所需體量的算力，業務運行成本過高。

截至 2023 年年末，我國算力總規模達到每秒 1.97 萬億億次浮點運算（197E FLOPs），位居全球第二，算力規模近 5 年年均增速近 30％。

如此增速，為何行業内仍然感到算力尤其難？

背後的原因是，AI 行業發展恰逢工程師人才紅利爆發，加速了我國大模型行業的蓬勃發展，需求端 " 嗷嗷待哺 "，而市面上仍存在大量未被收集和充分利用的算力資源，缺少一種足夠成體系的 " 大模型原生 " 商業模式，将算力供給轉化為滿足市場需求的產品和服務。

算力性價比大幅提升，源自多芯片優化實力

" 市面上有很多未被激活的有效算力，硬體本身差距在快速縮小，但大家在使用時總會遇到‘生态問題’。" 夏立雪説，這是因為硬體的迭代速度總是比軟體更慢、價格更高，軟體開發者不希望工作中出現除自身研發工作之外的其他 " 變量 "，因而總是會傾向于直接使用有成熟生态的芯片。

無問芯穹希望幫助所有做大模型的團隊 " 控制變量 "，即在使用無問芯穹的算力服務時，用户不需要也不會感覺到底層算力的品牌差異。

成立不足一年的無問芯穹，何以能夠在這麼短時間内跑通多種計算卡上的性能優化？

2022 年底，大模型引發社會廣泛關注後，夏立雪和他的導師汪玉認為，國内整體算力水平距離國際先進還有明顯差距，光靠芯片工藝提升或是多元芯片的迭代已遠遠不夠，需要建立一個大模型生态系統，讓不同模型能自動部署到不同硬體上，讓各種算力得到有效利用。

一年後，無問芯穹宣布了在英偉達 GPU 和 AMD 等芯片上取得的優化效果，實現了大模型任務 2-4 倍的推理速度提升。

随後，AMD 中國宣布與無問芯穹達成戰略合作關系，雙方将攜手聯合提高商用 AI 應用性能。

兩年之後，無問芯穹在發布會上展示了其在 10 種芯片上的性能優化數據，在每張卡上都顯示已取得了目前行業内最優的性能優化效果。

" 我們與各個模型、芯片夥伴都建立了強信任關系，" 夏立雪表示，" 一方面來自于我們面向大模型的計算優化實力，另一方面無問芯穹非常注重保護夥伴的數據安全。無問芯穹會持續保持中立性，并且也不會與客户產生利益衝突，這是我們業務開展的基礎。"

做 " 大模型原生 " 的加速技術棧與系統

"Transformer 統一了這一輪的模型結構，并且表現出持續取得應用突破的趨勢。" 汪玉在開場發言中説，" 從前我們在 AI1.0 時代做上一家公司，只能做很小一部分 AI 任務。今時不同往日，大模型結構統一了，依靠生态建立起來的硬體壁壘正在‘變薄’。"

得益于世界範圍内正湧起的 AI 浪潮，以及中國市場的獨特機會，無問芯穹面對的是一次巨大的技術機遇。

Transformer 在設計時天然基于并行計算架構，規模越大的大模型帶來的智能效果越好，使用的人越多，其所需的計算量也越大。

" 無問芯穹正在做的是‘大模型原生’的加速技術棧。" 無問芯穹的聯合創始人兼 CTO 顏深根表示，大模型落地依賴算法、算力、數據，還有系統。算力決定了大模型的速度，設計優良的系統則能釋放出更多硬體潛力。

無問芯穹的團隊曾搭建過數萬片 GPU 級的大規模高性能 AI 計算平台，具備萬卡納管能力，并基于自運營集群成功搭建了雲管系統，已實現跨網域多雲間的統一調度。

One More Thing

" 在端側，人們則更加傾向于快速将大模型的能力落到人機互動的界面上，提升實用體驗。" 無問芯穹聯合創始人兼首席科學家戴國浩認為，未來，凡是有算力的地方，都會有 AGI 級别的智能湧現。而每一個端上的智能來源，就是大模型專用處理器 LPU。

大模型處理器 LPU 可以提升大模型在各種端側硬體上的能效與速度。

戴國浩在發布會上向觀眾展示了" 一張卡跑大模型 "，其團隊于今年 1 月初推出的全球首個基于 FPGA 的大模型處理器，通過大模型高效壓縮的軟硬體協同優化技術，使得 LLaMA2-7B 模型的 FPGA 部署成本從 4 塊卡減少至 1 塊卡，并且性價比與能效比均高于同等工藝 GPU。未來，無問芯穹的端側大模型專用處理器 IP，可以被模塊化地集成到各類端側芯片中。

" 從雲到端，我們要将軟硬體一體聯合優化進行到底。大幅降低大模型在各個場景中的落地成本，讓更多好用的 AI 能力更好、更平價地走進更多人的生活。" 戴國浩宣布，無穹 LPU 将于 2025 年面世。