復旦才女創業AI推理，估值超5億美元

今天小編分享的互聯網經驗：復旦才女創業AI推理，估值超5億美元，歡迎閲讀。

作者丨臨風

編輯丨海腰

Fireworks AI 專注于人工智能的推理部分，其工具幫助企業微調和定制模型以滿足特定需求，允許企業使用其平台訪問 100 多個模型。

圖源：Fireworks AI

創始人兼 CEO 喬琳畢業于復旦，是加利福利亞大學聖巴巴拉分校的計算機科學博士，曾是 Meta Pytorch 的負責人，在 LinkedIn 及 IBM 有過技術工作經驗，團隊成員内大多來自 Meta、Google 等大廠，華人成員超 1/3。

Fireworks AI 選中了小而美的賽道，定制 FireAttention 推理引擎，與開源的 vLLM 相比，推理時間縮短 12 倍，降低使用成本，獲得眾多資本青睐。

Fireworks AI 成立于 2022 年 10 月，于 2024 年 7 月 8 日獲投 5200 萬美元 B 輪融資。該輪由紅杉資本領投，Benchmark、NVIDIA、Databricks Ventures、Howie Liu、前 Snowflake CEO Frank Slootman、AMD、Scale AI 首席執行官 Alexandr Wang、前 Meta 首席運營官 Sheryl Sandberg、MongoDB 跟投，截至本輪，Fireworks AI 估值 5.52 億美元。

推理速度提升 12 倍

Fireworks AI 認為，人工智能的未來将是復合 AI 系統，使用各種互動部分（多個模型、模态、檢索器、外部工具、數據）來處理任務。

例如，電子郵件公司 Superhuman 在其平台創建的 Ask AI 就是一個復合 AI 系統，用户只需要在收件箱裏提出問題，不需要猜測關鍵詞或搜索郵件就能獲得響應。

復合 AI 系統是多模型調用、檢索器與外部工具的系統，也是 Fireworks 致力于達到的目标。

紅杉資本評價：" 專業地構建高性能推理堆棧、創新地實現復合 AI 系統，Fireworks AI 正在給開發人員提供以前只有科技巨頭才能獲得的 AI 解決方案。"

一方面，Fireworks 擊中了企業務實的需求。當前，Fireworks 為開發者、企業提供大模型微調、推理和部署等服務。在模型推理方面，Fireworks AI 就像一個專業團隊為企業提供成熟的解決方案。

細分場景中，企業使用的大模型通常需要進行一定程度的微調（fine-tuning），提升模型在任務上的表現。盡管大模型在通用任務上表現出色，但通過微調，企業可以更準确地解決自己的問題。

Fireworks AI 平台中允許用户通過 API 訪問超過 100 種不同的模型，包括大語言模型、影像生成模型、音頻、嵌入和多模态模型，企業通過這些模型進行微調和部署，從而将 AI 用于實際業務場景中。

Fireworks AI 能讓各類公司，尤其是缺乏 AI 硬體、基礎設施的企業低成本、高效地利用模型推出產品。在平台内，企業用户也可以用平台内有效工具将數據融入多種模型中進行產品測試。

另一方面，開源的工具和方案雖然免費易得，但 Fireworks AI 能讓部署和推理更具性價比。為此，他們提供三個方面的服務。

一是無伺服器（Serverless）模型。他們定制了 CUDA 内核的 FireAttention 推理引擎，在不犧牲質量的前提下，使模型推理速度比 vLLM（開源的大語言模型推理與服務引擎）快四倍。FireAttention V2 對于用于 RAG、多輪推理和多模式應用的長上下文提升，推理速度提高 12 倍。

圖源：Fireworks，FireAttention 領先 vLLM，在 fp8 模式下約為 12.2 倍

" 可以是現成的開源模型，可以是我們調整的模型，也可以是客户自行調整的模型，這三種類型都可以通過我們的推理引擎 API 提供服務，" 喬琳描述。

官網顯示，Fireworks AI 為 100 多種模型提供極快的推理速度，及時推理廣泛使用和特定領網域專用的 AI 模型，如 Meta Llama 3.1、Mixtral MoE 8x22b、Stable Diffusion3，針對延遲峰值、吞吐量和上下文長度進行了優化。而且，Fireworks 和英偉達一同成為首批接入零一萬物 Yi-Large 大模型的美國主流平台。

圖源：Fireworks

二是微調。據 TechCrunch，Fireworks AI 并不是從頭開始訓練基礎模型，而是幫助微調其他模型以滿足企業特定需求。2024 年 3 月，Fireworks AI 宣布推出微調服務，可以為包括 Mixtral 在内的 10 種模型提供 LoRA 微調服務。

此前，Stability AI 使用其分布式推理服務将 SD3SD3-turbo 推向市場，将影像處理速度提升至 0.37 秒 / 幅。

速度能提到多快？從另一案例來看，Cursor 公司使用其推測解碼 API 構建了 " 快速應用 "（Fast Apply）功能，通過部署特定的微調模型結合推測解碼技術，實現每秒 1000 個 tokens 的處理速度，比傳統方法 Llama-3-70b 快了約 13 倍，比 GPT-4 推測編輯部署快約 9 倍。

值得注意的是，該平台将模型大小限制在 70 億至 130 億參數之間，減少計算資源的消耗，從而降低使用成本。盡管小模型沒有大模型的知識範圍廣泛，但更适合處理特定場景的企業。因為其可以通過定制化的數據集和模型優化提升精确度。

喬琳表示：" 類似規模的模型（70 億到 1000 億參數的模型）在質量上可能會趨同，未來的關鍵在于，如何根據個人使用場景和工作負載定制這些模型。定制化将成為區分不同 AI 解決方案的主要因素，而不是模型的規模 "。

8 月的公告稱，該公司與 Cursor、Superhuman 等個别客户合作，根據具體用例定制量化方案。

三是按需部署，讓客户在 Fireworks 私有的 GPU 上運行文本模型，按秒計費。

它将自己定位為生產級基礎設施，已通過 SOC 2 Type II 和 HIPAA 的合規性評估，用户可在其中按需使用。

據官網 Blog，他們推出按需（專用）部署，讓開發人員可以配置自己的 GPU，這些 GPU 在專有的 Fireworks 服務堆棧（FireAttention）上運行，能讓一個 H100 相當于三個 H100 在 vLLM 的吞吐量，同時速度提高約 60%。

速度上去了，價格下來了。Fireworks AI 強調，在相同配置的情況下，提速的同時，使用成本大幅降低，他們能給客户更具競争力的價格。如，同樣的 Mixtral 8x7b 模型中，通過減少 GPU 總數，切換到 7.79 美元的 Fireworks H100，該平台能節約 53% 左右的費用。

圖源：Fireworks，在 Fireworks 運行 GPU 與使用 vLLM 配置 GPU 的成本對比

于開發者而言，Fireworks AI 提供了一種更靈活的方式，讓他們能使用定制、小規模的模型，而不是資源密集型的完整版。正如他們的口号：" 從通用 AI 到專業 AI。"（Go from generic to specialized AI）

它可以被視為一個模型托管平台。開發人員可以接入 API 使用選定的模型來訓練數據，添加生成式 AI 功能。6 月初，Fireworks AI 推出定制模型，允許開發者導入和使用來自 Hugging Face 的預訓練模型，利用平台優化。

據悉，Fireworks 提供了許多開源項目所不具備的自動化服務，包括自動調整復雜性和性能優化，簡化開發過程。

以上這系列生成式 AI 服務都需付費，除了企業方案外，從 Serverless 文本模型推理、影像生成、微調服務到按需的 GPU 推理等 Fireworks 都将按需收費。其中，開發人員可以最多部署 100 個模型。

7 月 11 日在獲得 B 輪融資時，Fireworks 表示，他們與 vLLM 相比推理時間縮短 12 倍，與 GPT-4 相比縮短 40 倍，平台每天處理 1400 億個令牌，API 正常運行時間為 99.99%。合作夥伴有初創 Cursor、Liner，也有數字巨頭 DoorDash、Quora 等。

Fireworks 供應商包含 MongoDB、Meta、Mistral、NVIDIA、AMD、AWS、Google 和甲骨文 Oracle Cloud，其中多數也是本輪的投資者。

復旦才女領隊，華人超 1/3

在震撼的 Mixtral MoE 8x7B 正式發布前 2 天，Fireworks 就是第一個托管它的平台，給大模型的朋友圈留下深刻印象。憑借優化性能的成果和開發者推薦的技術積累，Fireworks 在行業中的地位逐漸提升。8 月 15 日，Fireworks 登上福布斯 " 下一個十億美元創業公司 " 榜單。

其背後的技術團隊實力不容小觑，只有 27 人，多數來自 Meta、Google、AWS、Zillow、Wayfair、Plaid 等公司，其中華人面孔占相當比例，超過 1/3。并且，創始團隊及工程師是前 Meta Pytorch、Google Vertex AI 的核心成員，其中就包括前 Vertex AI 主管趙晨宇。

創始人及首席執行官喬琳（Lin Qiao）曾任 Pytorch 的負責人。她本碩畢業于復旦大學計算機科學專業，是加州大學聖巴巴拉分校 CS 博士。

圖源：領英

喬琳擁有優秀的工作履歷和出色的軟體工程經驗，她在 IBM 硅谷實驗室擔任過顧問軟體工程師，曾任 LinkedIn 技術主管，也是前 Meta 的高級工程總監，領導過 300 多名 AI 框架和平台的世界級工程師。

她在創立 Fireworks 前 5 年，一直與現公司聯合創始人兼 CTO Dmytro Dzhulgakhov 共事。Dmytro 在哈爾科夫理工學院讀研期間兩次入圍 ACM ICPC 世界決賽，是前 Meta 的技術主管，Pytorch 的核心維護者以及 Caffe2 深度學習框架的核心開發人員。

在 Meta 從業，喬琳明顯能感受到的挑戰是簡化復雜性。喬琳在領英中描述這段職業經歷是：" 我們已在所有 Facebook 數據中心、數十億移動設備和數百萬 AR/VR 設備中廣泛構建部署了 Caffe2 和後來的 Pytorch"。不同類型設備的部署方式完全不同，所以在她看來，哪怕一秒鍾的數據延遲都将帶來極大影響。

Pytorch 是 Meta 推出的深度學習框架，已成為主流，被用于訓練計算機視覺的 AI 模型如特斯拉的自動輔助駕駛、SD 生圖和 OpenAI 的 Whisper 等。與 Pytorch 一樣，Caffe2 也是一個兼具靈活性和可擴展性的深度學習框架。這兩類框架與 Fireworks 能簡化開發流程、提升效率密切相關。

在紅杉的訪談中，喬琳回憶，她曾清楚地看到了 Pytorch 的 " 漏鬥效益 "，從最初作為研究人員的工具，變為更多通用 AI 模型的運行框架。

在 Meta 時，她與團隊在尋求一種方法，讓用户體驗變得簡單，隐藏起在後端復雜的内容。她與團隊延續理想主義的想法，Pytorch 前端 +Caffe2 後端，搭建了 PyTorch 1.0。原以為将 Pytorch 替換其他框架作為庫是一個簡單的半年項目，而這實際花費了喬琳團隊 5 年時間。

考慮到高效的數據加載和有效的 Pytorch 分布式推理、擴展訓練，他們必須從頭開始重建整個堆棧。" 它每天維持超過 5 萬億次推理，是一個巨大的規模 "，最終在喬琳團隊離開時，Pytorch 成效顯著。

Pytorch 因簡單易用且功能強大為開發者所喜愛。有開發人員解釋：" 簡單理解深度學習，就是用算法将數據訓練到模型裏存起來。自己用 C 語言寫可以實現，用 Pytorch、TensorFlow 這樣的框架也可以實現。這 Pytorch 就是 Python 的庫，開發者要訓練模型，只需要去調用一個一個‘方法’即可，不用自己實現復雜的算法。"

與 Pytorch 的設計思路類似，Fireworks 旨在做到為用户提供創新的復合 AI 系統，一種 " 開箱即用 " 的開放式模型，能通過微調和自定義部署實現定制能力，減少用户需考慮的復雜性。

據介紹，復合 AI 系統的 agent 使用 LLM 來完成單個任務，并共同解決復雜問題，這種方式允許開發者用最少的編碼創建多回合、多任務的 AI 代理工作流，降低成本和復雜性。

喬琳表示："Pytorch 花了 5 年時間，而 Fireworks 的使命是加速整個行業的產品上市周期，将其從 5 年壓縮到 5 周，甚至是 5 天。"

此外，她在 2022 年創立 Fireworks 時就意識到：" 我們看到了 AI 行業中正在經歷第一次轉型的公司，無論規模大小都正承受痛苦，源于沒有合适的人才、專業知識不足、缺乏軟體堆棧集、更新 GPU 的窘迫。" 她想要打破這一矛盾。

在她看來，低延遲、高質量反饋是眾多客户的要求。早期階段的 GenAI 公司找不到契合市場的產品，而随時間推移，已經有一個明确的趨向，那就是定制化的小模型，從大模型到專業模型的演變。

GenAI 與傳統 AI 有顯著不同，它不需要從頭訓練模型，使得通過小規模、高質量的數據集進行模型調整成為可能。資源消耗降低，更多公司和個人可以使用這項技術，從而 GenAI 的普及度也得到提高。

于是喬琳創立 Fireworks，将其作為一個 SaaS 平台用于 AI 推理和高質量調優，實時應用程式使用其小模型堆棧可以獲得低延遲，企業也可在其中定制高質量服務。

她表示，Fireworks 在未來 5 年想要構建一個提供全面知識訪問的 API。目前他們已經提供超 100 個模型，涵蓋大語言模型、影像生成、音頻生成、視頻生成等，而這些模型所涵蓋的數據有限，大量信息隐藏在無法訪問的公共 API 之後。為克服這一限制，Fireworks 致力于創建一個層來混合不同模型的公有 / 私有 API，實現對知識的全面訪問。

喬琳打了個比方："OpenAI 正在提供專家的混合體，它有一個路由器，坐在幾個非常強大的專家之上，每個專家各司其職。而我們的願景是，建立一個混合專家，它能接觸到數百名小專家，但他們更敏捷、解決特定問題的質量更高。"

" 掘金賣鏟 " 的百億市場

喬琳在攻破 " 專注于簡單性 " 的大關前，Meta 有三個不同的深度學習框架，Caffe2（用于移動設備）、ONNX（用于伺服器端）以及 Pytorch（用于研究），2018 年 5 月，Facebook（現 Meta）正式公布 Pytorch1.0，允許開發人員從研究轉向生產而無需遷移。

這三類框架與另一位 AI 大神關系匪淺，那就是 Facebook 之前的 AI 工程開發主管賈揚清。

"Caffe 之父 " 賈揚清是 Pytorch1.0 共同負責人之一，同時也是神經網絡标準 ONNX 的創始人。從重合的履歷線來看，2018 年他與喬琳在三類框架成功的基礎上，共同領導創建了 PyTorch 1.0。

在《人物》的訪談中，賈揚清提到，可擴展性、輕便、增強計算模式、模塊化設計這四個因素是 Facebook 深度學習領網域努力的方向。另外，他表示，AI 工程化的本質就包括了雲原生化、規模化和标準普惠化。正如他加強開源框架的普适性和易用性，加速框架對實際應用的效果。

" 未來可能不會出現大一統的深度學習框架，曾經 TensorFlow 的出現解決了大規模系統的問題，而當超大規模系統用起來不方便時，開發者就會思考如何用更像 Python、更容易迭代的方式做算法開發和迭代，Pytorch 應運而生，" 賈揚清説，" 解決上層 AI 應用、科研時的問題才是更為重要的一點 "，解決 GenAI 應用復雜問題，加速開發。這與喬琳 Fireworks 的創業思路如出一轍。碰巧的是，他們的創業公司走入的也是同一賽道。

2023 年 7 月，Meta 的前 Pytorch 工程主管 Soumith Chintala 發推表示，他發現 Pytorch 前員工創辦了一家機器學習基礎架構公司 Fireworks AI。同時，他艾特了賈揚清，表示他離開了阿裏也創辦了另一家 ML Infra 公司。

圖源：Twitter

Soumith、賈揚清、Dmytro 三人曾共同參與 2017 的機器學習頂會 NIPS，分别講演 Meta 的三個深度學習框架。有人以為會是賈揚清創業和 Dmytro 造一個 Caffe3，沒想到的是，Dmytro 去了 Fireworks，賈揚清和 ONNX 的聯創、etcd 的創始人成立了 Lepton AI。

在 ChatGPT 引起 AI 浪潮的年頭，賈揚清沒有選擇大模型，而是選擇了它背後的生意，幫企業部署模型。跟 Fireworks 一樣，Lepton AI 提供算力、模型和服務，包括通用模型的 API、平台服務、對模型微調和部署的服務。

Lepton AI 的產品經理魚哲強調，他們的定價目的是确保用户直接購買現成的解決方案比自己做更劃算。從單項價格來看，相同模型的服務，Lepton AI 甚至優惠一些。