今天小编分享的互联网经验:不是OpenAI也不是Google,这家估值20亿美元的小公司成了AI社区的最爱,欢迎阅读。
说起现在世界上顶级大模型和生成式 AI 的缔造者,除了 OpenAI、谷歌、Meta、Anthropic 这些名字,如果只把目光投向硅谷,那知识库可能真的该更新了。
最近在法国巴黎,一家成立才半年,仅有 22 名员工的 AI 初创公司异军突起,宣布完成 3.85 亿欧元(合 4.15 亿美元)A 轮融资,投资方包括 a16z、光速创投、Salesforce 和法国巴黎银行等著名机构。它的估值也因此在短短六个月内增长了七倍多,突破 20 亿美元,轻松跻身独角兽行列,创下开源公司史上最快融资记录。
这家公司的名字就是 Mistral AI,今年 5 月由 Meta 和 Google DeepMind 前员工创立。专注于开发生成式 AI 技术,特别是用于构建在线聊天机器人、搜索引擎和其他人工智能驱动产品。
值得一提的是,成立仅一个月,还没有公布产品、彼时只有 6 名员工的 Mistral AI,就曾凭借 7 页 PPT" 神话 " 般拿下 1.13 亿美元种子轮融资,轰动整个欧洲 AI 行业。
作为目前最炙手可热的业界新星,Mistral AI 被认为是少数几家能与 OpenAI 技术相媲美的 AI 公司之一。但与 OpenAI 并不 ‘ Open ’相反,Mistral AI 一直坚持推广开源軟體方法,允许用户自由复制、修改和再利用其计算机代码,为外部开发者提供他们需要的一切。以 " 引领开放模型革命 " 为公司使命,正面对抗 OpenAI、谷歌等走闭源路线的 AI 巨头。
而规模这么小的 Mistral AI,是如何用其高效能的强大 AI 模型征服十几家头部 VC,又如何践行开源理念,赢得广大开发者社区潮水般的支持和肯定?这些都与公司的创始团队有分不开的联系。
世界级技术专家联手打造欧洲 " 开源版 OpenAI"
Mistral AI 的三位联合创始人中,首席执行官 Arthur Mensch(中)曾任 Google DeepMind 的研究员,参与了包括 Flamingo、Chinchilla、Gopher 在内的多个 DeepMind 经典模型,也是 Flamingo 和 Chinchilla 的核心贡献者,对多模态、RAG、算法优化等技术有深刻理解。
首席技术官 Timoth é e Lacroix(右)和首席科学家 Guillaume Lample(左)此前都是 Meta 巴黎人工智能实验室的核心研究人员,两人对模型推理、预训练和模型嵌入有深入研究,是 Llama 和 Llama2 的核心技术贡献者,并发表过多篇重要学术论文。他们的前东家 Meta 也恰恰是鼓励开源的代表公司之一。
公司员工喜欢开玩笑说,创始人姓氏的首字母连起来是「L.L.M.」,正是大型语言模型的缩写,仿佛预示了 Mistral 的诞生与宿命。
而这支年轻的团队本身也具备了顶尖 AI 公司人才的典型特质:以科学家为主、研究能力强、技术栈互补且全面。其中 7 人来自 Meta(4 位是 Llama 参与者),3 人来自 Hugging Face,2 人来 Deepmind,大部分都参与过知名大语言模型项目开发。
此外,还有曾在麦肯锡任职 12 年、并帮助法国 SaaS 独角兽 Mirakl 从 B 轮成长到 E 轮的首席商务官 Florian Bressand、前法国数字事务国务秘书的顾问 C é dric O 为这个科学家主导的公司保驾护航。
团队精干高效、配合紧密,在各个环节上都有擅长的专家。这种清晰的团队构成和技术为先的实干型科学家属性也映射到了 Mistral AI 的行事风格和产品上。
一条 " 直给式 " 磁力链接,带来开源模型新王者
两周前,Mistral AI 就在没有预告、没有官方博客、没有 Demo 的情况下,在社交平台 X 甩出一条磁力链接,发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B。
没有 OpenAI 一贯的暧昧戏码和花式推拉、也没有 Google 发布 Gemini 时精心剪辑的 " 特效视频 ",甚至连一句介绍语都没有。Mistral AI 的官宣方式如此朴实无华,简单粗暴。秉持着 " 能干成一件事儿就绝不跟你多废话一个字 " 的作风,成为 AI 圈特立独行的 " 一股清流 "。
网友心说这种新品发布方式也太独特了,下次不得直接隔空投送?还有人都有点看不下去:" 你们搞错了,应该先发一个长博客,别带模型 ",这是顺带把谁家也反讽了一把。
当然更多的开发者是兴奋,当即表示自己的周末 " 毁了 ",因为迫不及待要马上去下载来运行试试。
这里简单解释一下 MoE,全称为 Mixture of Experts(混合专家模型),就是把复杂的分析预测任务分割成一系列更小、更容易处理的子任务,每个子任务由符合该特定领網域的 " 专家 " 负责。MoE 架构不仅能提高模型处理信息的效率,还降低了运行成本。
据说 OpenAI 从去年开始就在用这种方法来训练 GPT-4, Mistral AI 则正是致力于为企业提供一种 " 无限接近 "GPT-4 的开源选择。
具体到链接里的 Mixtral 8x7B,总参数为 46.7B,但每个令牌只使用 12.9B。因此,它以与 12.9B 模型相同的速度和成本处理输入并生成输出。Mistral 8x7B 拥有 32k Tokens 上下文长度,支持英语、法语、意大利语、德语和西班牙语。在代码生成方面表现出色,还支持微调为指令跟随模型,并采用 Apache 2.0 许可证开源商用。
性能方面,Mixtral 8x7B 在大多数基准测试上都超越了 700 亿参数的 Llama 2 70B,推理速度提高 6 倍。在模拟真实世界对话场景、评估大语言连贯性和信息丰富的 MT-Bench 测试中,它达到了 8.30 的分数,其性能可与 GPT3.5 媲美,成为最好的开源模型。
商业和科技网站 ReadMultiplex 创始人、著名科学家 Brian Roemmele 在推特称 Mixtral 8x7B 的开源是 " 自 Meta 首次发布 LaMMA 以来最重要的时刻之一 ",是 " 令人震惊和里程碑式创新 "。
并且已经有人基于它微调了一个完全自由和开放的模型 dolphin-2.5-mixtral-8x7。会 " 回应所有用户的指令,不会带有任何评判性。不会对你施加任何道德标准,并会展现互联网上的所有可用信息。" 再也不会遇到 " 作为一个 AI 助手,我不能… " 的问题。
网友们更是为 Mistral AI 各种花式打 call,盛赞 Mistral AI 是 " 地球上最真诚和忠于初心的团队 ",真正为开发者办实事,令 "Open"AI 终于变成了现实。
一条简单到不能再简单的磁力链接就这样点燃整个 AI 社区。而返回去看 Mistral AI 的 X 账号页面,你会发现整个官推没有图片、没有视频,自注册以来总共就发布了三条内容。上一条还是团队 9 月份推出的开源模型 Mistral 7B,同样只甩出了异曲同工的磁力链接。
这个由团队短短 3 个月内打造出的 Mistral 7B,至今仍被业界认为是 7-13B 小模型中的佼佼者。它在几乎所有基准测试中都比 Llama 2 13B 更优秀,还在代码、数学和推理方面赢过 LLaMA-1 34B。并且公司并非通过 API 开放 Mistral 7B 的访问权限,而是免费下载,使得开发者可以在自己的设备和伺服器上运行它。
在第一条自报家门的推文中,Mistral AI 依旧无心 PR,画风是说不出的特别:" 这是 Mistral AI 的官方账户,由 @GuillaumeLample、@arthurmensch 和 @tlacroix6 新近创建的公司…我们的身份在推上已经被盗用了,这个才是真的 : ) 。"
这种专注搞技术的耿直风一下子就把网友们拿捏了。见惯了各种 AI 公司华丽的营销和侃侃而谈的自我包装,光是 Mistral AI 这个看上去用 word 制作出来的 logo 就圈粉无数。
也有人对 Mistral AI 喊话说,等你们有钱了,去雇一个厉害点儿的美工吧!
很显然,Mistral AI 现在完全不差钱了。但作为一家从最开始就决心遵循开源发展的创业公司,它长远的盈利之路能跑通吗 ? 他们自己又是怎样看待技术发展上集中与去中心化的博弈?
坚持开源," 是过去更是未来 "
在官网的公司介绍页面上,Mistral AI 称这是一个行动迅速、高工作强度和透明度的团队,使命是将强大的生成式 AI 技术带给最广泛的軟體开发者和企业用户社区,以应用为驱动,让模型真正对现实世界有所帮助。并希望成为开放式 AI 社区的领先支持者,将开源模型带到最先进的性能水平。
许多像 OpenAI 和谷歌这样的竞争公司认为,让大模型算法开源是危险的,底层技术可能被滥用来传播虚假信息、仇恨言论和制造其它有害事物。他们只能在花费数月时间設定数字护栏后,以在线聊天机器人的形式向公众发布。
而 Mistral AI 则认为,引领生成式 AI 革命必须开源。社区支持的模型开发才是接受严格审查和抗击偏见的最佳路径。通过训练和公开发布优越的模型,让开发者社区力量和更多成功的开源项目彼此驱动和优化,可以构建一个可信的替代方案,对抗新兴的 AI 寡头。
CEO Arthur Mensch 在 Greylock 合伙人 Sarah Guo 的博客中表示,如果有人为了实现某些有害行为去做信息收集的话,可能反而是传统搜索引擎而不是 LLM 更容易实现这件事。禁止小公司开源,确实会令大公司更受益,但是这并不利于 AI 生态的整体发展。
同时 Mensch 也提到,在过去十几年间,计算机技术的重大变革——从网页浏览器、作業系統、编程语言到数据库——大多都得益于开源解决方案。事实上,直至 2020 年(GPT-3 发布之前),几乎所有大型语言模型的研究都是公开且透明的。然而自 2020 年开始,随着某些公司在这一领網域取得领先并意识到价值,情况就随之改变了。
" 我们认为过早进入闭源阶段对科学发展是有害的 ",Arthur Mensch 说," 在一个不透明的环境中,大家可能会同时在一个任务上做投入,因为不能共享而导致大量资源浪费。" 他也称开放权重模型可以精细地适应和解决各个行业垂直领網域中的核心业务,开发者可以自定义他们想要的护栏和编辑语气,生成的内容也不再依赖 API 提供者的选择和偏见,而这些都是黑盒模型无法匹敌的。
这种开源共享精神,也自然在如今 AI 行业巨头垄断、小公司挣扎求生存的时代背景下,获得广大开发者的拥戴。人们表达着见证开源模型迅速赶上闭源模型的兴奋,认为 " 用更少做更多 " 正是开源生态系统最鼓舞人心的地方,并希望 Mistral AI 能随着新资金的注入加速开源领網域创新。
" 我们希望通过更开放地分享我们的技术,引导社区朝着更好、更安全的方向前进。我们的真正目标是占据领导地位,并改变游戏规则,因为当前的发展方向并不正确 ",Arthur Mensch 说道。
能不能既开源又 " 搞钱 "?
据悉,Mistral AI 还没开始盈利。而 " 开源 " 和 " 商业化 " 之间,似乎总存在着一定的张力。如何把两者有效融合,是把开源 LLM 公司做长远不能略过的问题。
目前 Mistral AI 已基于其自研模型推出了 "La Plateforme" 托管平台测试版,提供 Mistral Tiny,Mistral Small 和 Mistral Medium 三个模型类别。
其中 Mistral 7B 和 Mixtral 8x7B 分别属于 Mistral Tiny 和 Mistral Small,可供用户免费下载,而 Mistral Medium 还未开源。后期这个性能更强大的模型也许会以 API 调用的形式收费,或是为企业提供模型微调、RAG、定制化服务等。
另外说到市场,与 OpenAI 们瞄准美国和全球不同,Mistral AI 将施展拳脚的舞台定位在了欧洲。
这里汇聚的大量世界财富 500 强公司不愁付费能力。相较于美国,欧洲多是传统行业,对新兴技术有着更迫切的需求。同时,欧洲对新技术的数据监管更加严格,对解决方案的开放透明度有着更高的要求,十分适合 Mistral AI 的开源策略。
除此之外,创始人 Arthur Mensch 也认为,欧洲在 AI 人才储备上具有独特优势," 这边非常擅长培养数学家,而数学家在 AI 研究中扮演着至关重要的角色。这些人多数更适应欧洲的生活,并不一定非得去美国。"
" 因为 DeepMind 的原因,伦敦的 AI 生态肉眼可见地崛起了,紧接着会是巴黎。现在巴黎已经有几百家初创公司,虽然离硅谷还差得远,但我相信类似于湾区的那种飞轮也会在法国出现。"
他还在法国国家广播电台透露, Mistral AI 明年将会发布一个开源的 GPT-4 级别模型。
在地理和气候学中,"Mistral" 是指吹过法国南部和地中海西北部的一种强劲、持久的寒冷北风。通常在冬季和早春期间吹拂,对当地的气候和环境有显著影响,有时会带来非常低的温度和晴朗的天空。
Mistral AI 或许希望自己能像这股凌冽的寒风,在发展速度一日千里的人工智能时代,带来新鲜的思想、革命性的引领和强大的影响力。而一个全新的 AI 王者在距离硅谷上万公里以外的欧洲大陆崛起,也正是全球开发者喜闻乐见的。