今天小编分享的科学经验:清华系多模态大模型公司刚刚融了数亿元!放话“今年达到Sora效果”,欢迎阅读。
清华系多模态大模型公司,又拿钱了!
生数科技,师出清华朱军团队,是国内最早布局多模态大模型的团队之一。
市场消息传来,这家公司刚刚完成新一轮数亿元融资。本轮融资由启明创投领投,达泰资本、鸿福厚德、智谱 AI、老股东 BV 百度风投和卓源亚洲继续跟投。
生数方面的说法是,本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。
此前,生数已经在文生图、文生 3D 模型、文生视频方面都有研究成果对外释出。
2022 年 9 月,生数科技创始成员就提出了基于 Transformer 的网络架构U-ViT,这与 Sora 和 Stable Diffusion3 背后采用的 Diffusion Transformer 架构 DiT,在架构思路与实验路径上完全一致。
对此,生数科技 CEO 唐家渝表示:
我们积累了完整高效的工程化经验,拥有在大规模 GPU 集群上实现高效兼容、低成本的模型训练经验,整体上来讲,我们追赶 Sora 肯定比追赶 GPT-4 轻松很多。
今年一定能达到 Sora 目前版本的效果,很难说是三个月还是半年(笑),但这件事我们的信心还是非常足的。
2022 年已提出类 DiT 架构 U-ViT
在扩散模型方面,生数科技团队是国内率先开启该方向研究的团队,成果涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。
2022 年 9 月,生数创始成员提出了基于 Transformer 的网络架构 U-ViT 时,U-ViT 就在千万至数亿参数量级范围内验证了极强的可扩展性(scaling up)。
这项工作在 CVPR 2023 发表,早于 DiT。
2023 年 3 月,团队又开源了全球首个基于 Diffusion Transformer 架构(U-ViT)的多模态扩散大模型UniDiffuser,在参数量和训练数据规模上与 Stable Diffusion 直接对齐。
从架构上来看,UniDiffuser 比最近公开论文的 Stable Diffusion3(采用 DiT 架构)领先了一年。
此外,除了单向的文生图以外,Unidiffuser 支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。
持续进行 Scale up
在统一化架构的思路下,生数科技持续进行Scale up。
在图文模型的训练中,其模型参数量从最早开源版的 1B 不断扩展至 3B、7B、10B 及以上,使得模型在美学性、多元风格、语义理解等方面实现快速稳定的提升。
同时在此基础上,通过拓展空间维度和时间维度,逐步实现 3D 生成和视频生成模型的训练。
依托底层 U-ViT 架构的创新尝试,截至 2023 年 9 月,生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型(闭源版),全链路自主训练、自主研发,在影像生成、3D 生成、视频生成等多项任务中位居前列。
目前的成果是,生数的 3D 生成,已经可实现高精度与最快 10 秒级的模型生成。
此外,生数团队还推出全球首个 4D 动画生成、可控 3D 场景编辑等工作。
而视频生成方面,也已实现短视频的编辑与生成能力,在画面美观度、连贯性方面实现了突破。
近期将重点突破长视频生成能力
在商业化落地方面,依托于 MaaS(模型即服务)能力,生数科技在 2B、2C 端同时发力。
一方面以 API 的形式向 B 端机构直接提供模型能力,另一方面打造垂类应用产品,按照订阅等形式收费。
目前公司已与多家游戏公司、个人终端厂商、互联网平台等 B 端机构开展合作,开放模型服务,提供 AIGC 个性化体验、定制化内容生产等方面的能力。
去年,面向艺术设计、游戏制作、影视动画、社交娱乐等创意领網域,生数科技上线了两款工具产品:
视觉创意设计平台 PixWeaver
3D 资产创建工具 VoxCraft
而学术层面上,团队于 ICML、NeurIPS、ICLR 等人工智能顶会发表相关论文近 30 篇,其中提出的免训练推理算法 Analytic-DPM、DPM-Solver 等突破性成果,获得 ICLR 杰出论文奖,并被 OpenAI、苹果、Stability.ai 等机构采用,并被 DALL · E 2、Stable Diffusion 等项目采用。
那么,接下来的路是什么?
谈到对未来的规划,生数科技始终坚持" 原生多模态 "方向。
一边,是对产品端持续迭代;
另一边,则是在基础模型层面持续优化,主要是提升语义理解、可控性、美观度方面的生成效果。
其实,Sora 出现前,生数内部主要聚焦于短视频,但现在公司会投入更多资源在长视频上,架构、数据使用调优方面,团队已经做过不少探索,也踩过许多坑(很多现在都已经解决了)。
但 OpenAI 砸大钱捧出一个 Sora,验证了这条路的正确性,也打消了团队的许多顾虑," 目前的视频生成长度在 4-5 秒左右,我们近期将重点突破长视频生成能力……尤其长视频画面的连贯性,我们还在做一系列攻克工作 "。
— 联系作者 —
>