今天小编分享的科学经验:Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量影像,公司估值已达420亿,欢迎阅读。
Mistral 的多模态大模型来了!
Pixtral 12B正式发布,同时具备语言和视觉处理能力。
它建立在文本模型Nemo 12B基础上,包含一个专门的视觉编码器。
大概 24GB,原生支持任意数量和尺寸的影像,大约有 40 层神经网络、14,336 个隐藏维度大小和 32 个注意力头,以及一个专用的视觉编码器,支持高分辨率影像(1024 × 1024)处理。
发布形式还是简单直接一个种子链接。
Mistral 的开发主管表示,后续也会在 Chatbot 上接入模型,并提供 API 服务。
超越 Qwen、LLaVA 等
虽然目前模型的训练数据、细节都未公开,但是通过模型代码网友们发现了更多细节。
1、先进架构:40 层网络、14336 隐藏维度大小、32 个注意力头。
2、视觉能力:专用视觉编码器,支持 1024x1024 影像大小和 24 个隐藏层,用于高级影像处理。
3、更大词汇量:131072tokens,支持更细致语言理解和 生成。
4、使用 GeLU ( 用于视觉适配器 ) 和 2D RoPE ( 用于视觉编码器 ) 。
5、Patch 大小:16 × 16 像素。
6、在 mistral_common 中支持 tokenizer。
7、模型权重 bf16。
与此同时,还有人在放出了 Mistral 发布会上公布的模型基准情况。
Pixtral 12B 和 Qwen2-VL-7B、LLaVA-OV-7B、Phi-3 Vision 做了对比。
多模态知识和推理、QA 等方面都表现不错。
欧洲版 OpenAI 估值达 60 亿美元
最近几个月 Mistral 的动作还是非常密集的。
今年 6 月,他们通过股权债务融资完成约 6.4 亿美元 B 轮融资。估值已达 60 亿美元(折合人民币约 420 亿)。
完成融资后,他们便发布了 Mistral Large 2 旗舰模型、SMoE 模型 Mistral 8 × 22B 以及开源模型 Codestral 等。
目前,微软、AWS、Snowflake 等巨头均投资 Mistral。尤其是微软的入股,使得 Mistral 成为 OpenAI 以外,微软 Azure 第二个商业闭源模型供应商。这也进一步夯实了 Mistral" 欧洲版 OpenAI" 的地位。
参考链接:
[ 1 ] https://x.com/_philschmid/status/1833954941624615151
[ 2 ] https://venturebeat.com/ai/pixtral-12b-is-here-mistral-releases-its-first-ever-multimodal-ai-model/
[ 3 ] https://x.com/theresanaiforit/status/1833784474342977627