今天小編分享的财經經驗:中國也有Sora同款訓練架構公司,清華班底,智譜也投了,歡迎閱讀。
文 | 周鑫雨
編輯 | 鄧詠儀
全球首家發布 Sora 同款底層架構的清華系模型公司,近期完成了新一輪融資。投資名單中,也出現了大模型獨角獸智譜 AI 的身影。
36 氪獲悉,近日多模态 AI 模型公司生數科技完成新一輪數億元融資。該輪融資由啟明創投領投,達泰資本、鴻福厚德、智譜 AI、老股東 BV 百度風投和卓源亞洲跟投。據介紹,融資主要用于多模态基礎大模型的研發迭代、應用產品創新及市場拓展。
2023 年成立的生數科技,在創立當年已經完成了近億元的天使輪融資。基于自主研發的多模态通用大模型,生數科技對外提供 To B 的 MaaS(模型即服務)服務和 To C 的應用產品。
生數科技的核心團隊成員,出自清華大學人工智能研究院。聯合創始人兼 CEO 唐家渝出身清華大學自然語言處理實驗室,曾任瑞萊只會副總裁、騰訊優圖實驗室高級產品經理。CTO 鮑凡在清華大學計算機系獲得博士學位,在加速推理、可控生成、基礎架構、訓練策略等方面已發表十餘篇頂會論文。首席科學家為清華大學計算機系人工智能實驗室主任、智源研究院首席科學家朱軍。
可以說,2023 年是國内大語言模型狂飙的元年。2024 年,OpenAI 攜可生成 60 秒視頻的模型 Sora 再次登場,立刻帶動了國内 AI 行業對視頻、音頻、影像、3D 等多模态生成技術的探索。
目前,生數科技自研的多模态通用大模型,已經初步具備短視頻的生成能力。
短視頻生成效果。圖源:生數科技
但 Sora 的空降,也讓生數科技立刻調整了戰略。以往 AI 生成視頻的長度天花板,是 Runway Gen-3 的 18 秒,如今 Sora 将天花板抬高到了 60 秒。
唐家渝坦言,長視頻生成需要高昂的入場費,A100、A800 的卡可能要上萬張。資源投入的壓力,讓團隊并沒有立刻投入長視頻生成的訓練。如今長視頻生成的路徑,已經被 OpenAI 驗證,生數科技決定提高突破長視頻能力的優先級。
生數團隊對多模态模型的探索最早開始于 2013 年。在清華實驗室階段,團隊早期成員就開始了生成式模型理論基礎、高效學習和推理算法,以及音樂生成、人臉合成等多方面的研究工作。
自 2020 年擴散模型應用于影像生成領網域以來,生數團隊也是業内首批開展擴散概率模型基礎理論和算法研究的隊伍,于 ICML、NeurIPS、ICLR 等頂會發表擴散概率模型領網域相關論文 20 餘篇。團隊先後推出自研的無訓練推理框架 Analytic-DPM、全球最快采樣算法 DPM-Solver,被 DALL-E 2、Stable Diffusion 等國際項目所采用。
2022 年 9 月,生數科技就發布了 9.5 億參數規模的 U-ViT 網絡架構,這也是全球首個 Diffusion Transformer 架構—— 1 個月後,Stable Diffusion 發布了初代 DiT 架構 U-Net,後被應用于 Sora 的研發。
依托于 U-ViT 架構,生數科技推出了基于統一的多模态多任務框架的通用基礎大模型,可實現影像、視頻、3D 多種模态的生成。
影像生成效果。圖源:生數科技
比如在 3D 生成的效果上,生數科技模型可以将生成速度壓縮到 10 秒級。與此同時,模型還支持 360 度全景 4D 動畫生成,以及對 3D 生成場景的編輯。
3D 生成效果。圖源:生數科技
在 3D 等多模态訓練數據稀缺的當下,據唐家渝介紹,生數科技多模态模型的訓練數據主要來源于兩塊:互聯網上大量公開的數據,通過向版權方購買的私有數據,兩者共同完善訓練數據的豐富性。
相較于同等參數規模的語言模型,多模态模型的訓練,前期的投入更為高昂。為了節省成本,提高訓練效率,生數科技構建了完整的工程與數據體系,并在大規模 GPU 集群上實現更高效、低成本、強兼容的模型訓練。唐家渝表示,去年團隊花了近一個月的時間做完了華為昇騰訓練架構的适配,芯片的國產替代幫助節省了不少成本。
目前,生數科技采取的是 To B 和 To C 兩條腿走路的商業化模式:對 B 端提供 MaaS 服務,對 C 端提供多模态生成應用。
目前,生數科技已經與多家遊戲公司、個人終端廠商、互聯網平台等 B 端機構展開合作。比如在和某頭部車企的合作中,生數科技将影像生成能力應用在了車載大屏的桌面生成。
在 C 端產品的布局上,生數科技在 2023 年上線了兩款工具型產品:視覺創意設計平台 PixWeaver、3D 資產創建工具 VoxCraft。先面向海外市場推出的 VoxCraft,在輔助 3D 遊戲角色開發場景中經過了市場的驗證,通過基于 VoxCraft 生成粗模、底模,遊戲開發效率能夠提升 30%
唐家渝認為,追趕 Sora 對模型公司而言,仍然擁有巨大的挑戰。這份挑戰不僅來源于訓練數據的數量和質量,也在于對多模态訓練數據的處理方式——在 OpenAI 披露更多訓練細節之前,Sora 的數據集仍然是個 " 黑箱 "。但樂觀的是,多模态模型,已經到了可以走出實驗室和機房,落地到更多應用場景的階段。
以下是投資人評價:
啟明創投合夥人周志峰
如今的大模型已經從原來的純語言模态,逐步走向多模态的探索。生數科技從去年成立之初就選擇多模态賽道,是國内這個領網域起步最早、積累最深的團隊,大量工作被 OpenAI、Stable Diffusion 團隊引用。生數科技推出的 U-ViT 架構作為全球 Diffusion Transformer 架構的首創,不僅具有前瞻的技術視野,更是經過了大規模訓練的驗證,展現出強大的技術可行性。這種兼具開拓性和成熟度的核心工作,讓我們對生數科技在多模态大模型方向的長期發展充滿信心。
今年過年期間,Sora 的亮相不僅展示出視頻生成技術的巨大潛力,而且增強了人們對于多模态生成未來發展的信心。随着 Scaling Law 在視頻生成領網域的進一步加強,我們預期多模态技術将引領一系列令人矚目的創新和令人驚嘆的成果。在這一過程中,生數科技無疑将扮演一個關鍵的推動角色!
達泰資本合夥人姚承
在當下大模型賽道的競争中,生數科技在多方面都脫穎而出。不僅敏銳洞察到多模态的前沿趨勢,而且作為國内最早投身多模态賽道的公司,生數科技在過去短短一年的時間内就取得了令人矚目的成績單,從基礎設施、模型算法、數據資源到場景化應用積累了獨特的競争優勢。同時生數科技也是國内極少擁有 " 從零開始、自主訓練 " 大模型能力的公司,具備深厚理論基礎和實踐經驗,擁有突破主流框架技術難點和瓶頸的技術實力,因此我們堅持在人工智能領網域的布局,并對生數科技未來發展充滿期待。
智譜 AI CEO 張鵬
智譜 AI CEO 張鵬表示:作為清華系的創業團隊,生數科技是國内最早開展深度生成式 AI 研究的組織之一。從對抗生成網絡到擴散模型,生數科技敏銳洞察到融合架構的重要性,将其作為原生多模态的技術核心和重要支撐。智譜 AI 很高興同生數科技展開深入合作,助力生數科技多模态核心技術研發與商業化探索,一同推動多模态大模型技術落地應用,更好惠及千行百業。
華興資本董事總經理、華興資本集團聯席總裁 王力行
我們身為生數科技的親密戰友,見證了公司的厚積薄發和無限潛力。作為全球頂尖的研發團隊,生數科技在基礎理論架構和工程實現等層面展現出了超群的創新力和前瞻性,率先提出 U-ViT 架構并一以貫之,引領了多模态行業的發展;同時團隊以極強的執行力和落地速度,陸續在影像、3D、視頻生成等領網域貢獻了藝術級的作品。作為未來數字世界的天才建築師,生數将率先攻克多模态生成瓶頸,把人類的創造力和藝術構想一一落為現實,始于科學、忠于創新、邁向未來。
歡迎交樓!