今天小编分享的科学经验:不敢对比阿里Qwen2.5,Mistral“最强小模型”陷争议,欧洲的OpenAI也不Open了,欢迎阅读。
欧洲的 OpenAI,也不 Open 了。
Mistral AI发布自称 " 世界上最好的边缘模型 ",却陷入质疑和争议。
不仅因为这一次没有磁力链接开放模型权重,也因为声称 " 始终优于同行 ",但竞品对比并不全面。
官方账号和 CEO 的评论区中,有网友不留情面的指出问题:怎么不和 Qwen2.5 对比呢?
Mistral AI 这次最新发布两款模型,Ministral 3B/8B,用于端侧和边缘计算。
公告中声称,两款模型在 10B 以下规模的知识、常识、推理、函数调用和效率方面推进了新的前沿。
展示的基准测试则使用内部框架重新评估所有模型,并声称在多项任务中 " 始终优于同行 "。
但在具体评测结果中,只对比了自家初代 Mistral 模型、谷歌的 Gemma 和 Meta 的 Llama 系列。
缺失的 Qwen2.5 系列在 9 月 19 日发布,官方评测结果中对比对象同样包含 Mistral 7B、Llama 3 和 Gemma 2。
尽管不是严格同样条件下的对比,在很多开发者看来相对数据也有参考价值。
StabilityAI 前 CEO Emad Mostaque 初步体验后也表示,认为 Qwen2.5 感觉上更好,开源许可也更宽松,推荐更多人尝试 Qwen2.5。
端侧小模型竞争激烈
Ministral 3B/8B 两款模型都支持 128k 上下文长度,Ministral 8B 具有特殊的交错滑动視窗注意力,可实现更快且节省内存的推理。
除此之外,目前没有透露更多技术细节。
两款模型从今天开始在官方平台提供 API 调用,需要联系官方获得商业许可。
另外8B 模型权重仅供研究使用,3B 模型权重目前并未开放。
对此,Django 框架创始人Simon Willison发文表示,在拥有更宽松开源许可且质量很高的 Llama 系列情况下,很难对 Mistral 新模型感到兴奋。
值得注意的是,Qwen2.5-7B 虽然是宽松的 Apache 2.0 开源许可,但 3B 模型与 Mistral 一样选择了研究用许可。
从中也可以看出,能在手机等设备跑的端侧小模型中,目前真正实用的 3B 规模商业化落地正在加速,AI 公司之间的竞争也越来越激烈。
欧洲的 OpenAI 变味了
Mistral AI 发布端侧小模型的这一天,也是他们首款模型 Mistral 7B 的一周年附近。
官方还制作了忍者神龟梗图,展示其品线已经在一年之内迅速完善起来。
一年前,Mistral AI 以先丢出神秘磁力链接、开放模型权重,几天后再发技术报告的独特作风,成为开源社区新宠。
但如今,这家 " 欧洲的 OpenAI" 也渐渐不 Open 了。
在 2024 年初,Mistral AI 宣布与微软合作,同期推出的 Mistral Large 大模型不再开放权重,并悄悄撤回了官方网站上有关开源社区义务的内容。
这一举动被视为公司战略的重大转变,引起一波议论。
一些开源社区成员对此表示失望,认为这种先通过免费或低成本的产品吸引用户,然后通过高级功能收费的方式,是一种 " 背叛 "。
最近一次 Mistral AI 甩磁力链接开放权重的模型,是他们首款多模态大模型 Pixtral。
有观点认为这是由于他们刚进入多模态这一赛道,之后商业模式成熟了也会渐渐转向非开源。
有网友表示,随着大模型商业竞争加剧,未来 Mistral AI 走向开源的对立面是不可避免的,令人难过。
尽管如此,他们仍然赢得了许多善意,所以我还在为他们加油。
参考链接:
[ 1 ] https://mistral.ai/news/ministraux/
[ 2 ] https://x.com/arthurmensch/status/1846565876046201289
[ 3 ] https://simonwillison.net/2024/Oct/16/un-ministral-des-ministraux/