大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B

2025-04-10 简体 HK SG TW

今天小编分享的科学经验:Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B,欢迎阅读。

刚刚,Kimi 团队上新了!

开源轻量级视觉语言模型Kimi-VL及其推理版Kimi-VL-Thinking,多模态和推理双双拿捏。

按照 Kimi 官方的说法,其关键亮点如下:

都是基于 MoE 架构,总参数为 16B,但推理时仅激活 2.8B;

具备强大的多模态推理能力(媲美参数大 10 倍的模型)和 Agent 能力;

支持 128K 上下文視窗;

采用相对较为宽松的 MIT 许可证。

如图所示,和 Qwen2.5-VL、Gemma-3 等前沿开源 VLM 相比,Kimi-VL-Thinking 仅使用 2.8B 激活参数即可实现强大的多模态推理。

同时在一些重要基准测试中,Kimi 新模型 " 以小博大 ",超越了GPT-4o等规模更大的模型。

目前两款模型均已上架 Hugging Face,分为 Instruct 基础版和 Thinking 推理版。

网友们纷纷表示,新的标杆再次诞生!

多模态和推理双双拿捏

话不多说,我们直接看 Kimi 新模型的具体玩法和效果。

视觉理解与推理

首先,作为一款通用的 VLM 模型,Kimi-VL 具备强大的视觉理解和推理能力。

给它一份手稿,要求它通过逐步推理来确认手稿属于谁,以及所记录的内容。

可以看到,Kimi-VL 通过分析手稿的笔迹、内容、语言等特征,推断出手稿可能属于爱因斯坦,理由是这些内容与引力场方程有关,这与爱因斯坦对广义相对论的贡献有关。

又或者只提供一张图片,让 Kimi-VL 来判断城市地标建筑、识别游戏场景等。

比如第 2 个例子中,它成功识别出图片中的穹顶建筑为多伦多的罗杰斯中心(Rogers Centre),同时描述了其特征和用途。

除此之外,Kimi-VL 也能被用来解答高难度几何数学题。

还是仅需一个上传图片的动作,它就能将复杂数学公式转换为 LaTeX 代码,并以正确格式输出。

OCR 与文本处理

当然,Kimi-VL 对多模态数据的正确理解还离不开一项关键能力——OCR 字元识别。

在 OCRBench 基准测试中,其得分为 867,属于 SOTA 水平。

除了识别数学公式,它还能识别金融表格(以 Markdown 表格格式输出)和手写作文。

甚至还能从长达一小时的视频课程中捕捉和理解关键细节。

比如提供视频中的某句话 " 授人以鱼不如授人以渔 ",要求它找到出处并进一步解读。

智能体任务与互動

值得关注的是,Kimi-VL 还在多轮 Agent 互動任务(例如 OSWorld)中表现出色,取得了媲美旗舰模型的 SOTA 结果。

比如在 Chrome 浏览器中,要求它自动启用 "Do Not Track" 功能来保护用户隐私。

可以看到,通过一步步思考,Kimi-VL 对每个螢幕进行解读,识别相关的用户界面元素,并通过清晰的思路、操作和 API 调用按顺序执行相应的操作。

背后技术原理

那么接下来的问题是,怎么做到的?

来看 Kimi 此次公开的技术报告。

首先,在模型架构上,Kimi-VL 和 Kimi-VL-Thinking 主要由三大部分构成:

MoE 专家混合语言模型(之前发布的 Moonlight-16B-A3B);

原生分辨率视觉编码器(MoonViT,基于 SigLIP-SO-400M 微调);

一个多层感知机(MLP)投影器。

模型具体训练过程如下:

数据准备

这第一步,团队构建了三大类别数据集:

1、预训练数据。精选来自六个类别的高质量数据,包括字幕数据、影像文本交织数据、OCR 数据、知识数据、视频数据和智能体数据。通过过滤、合成和去重等操作,控制数据质量。

2、指令数据。用于增强模型的对话和指令遵循能力。对于非推理任务,通过人工标注构建种子数据集,训练种子模型后生成并筛选多轮响应;对于推理任务,利用拒绝采样的方式扩展数据集,确保数据多样性和准确性。

3、推理数据。通过类似拒绝采样和提示工程的方法,收集和合成高质量的长思维链数据。

预训练:主要提升多模态能力

然后开始预训练,这一阶段共消耗 4.4T tokens,主要目标是提高模型的多模态理解能力。

概括而言,这一过程包含 4 个步骤:先独立进行 ViT 训练,以建立原生分辨率视觉编码器;随后进行三个联合训练阶段(预训练、冷却、长上下文激活)。

后训练:主要提升长思维链推理能力

接着进行后训练,通过在 32K 和 128K 上下文中进行的两个阶段的联合监督微调、长思维链监督微调及强化学习,团队进一步提升了模型的长期思考能力。

更多细节感兴趣可以查阅原论文。

One More Thing

有一说一,相比于 DeepSeek、Qwen 等国内竞争对手,Kimi 最近一个月实在有点过于安静了。

从官方公众号来看,最新一条发布还是在 2 月份。

在这股平静之下,网友们开始猜测:

Kimi 即将有大动作了?

结合更多消息,目前大家比较认可的推测是K1.6 模型即将到来。

就在 3 月,基于 Kimi-K1.6 的数学模型突然曝光,在编程基准测试 LiveCodeBench 中拿下第一,超越 o3、DeepSeek-R1 等模型。

当然,也欢迎更多知情者在评论区爆料 ( doge ) 。

论文:

https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf

模型开源地址:

https://huggingface.co/collections/moonshotai/kimi-vl-a3b-67f67b6ac91d3b03d382dd85

参考链接:

[ 1 ] https://x.com/Kimi_Moonshot/status/1910035354570371082

[ 2 ] https://x.com/iamfakhrealam/status/1909559812498886813

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

不到一周!中国 AIGC 产业峰会观众正在火热报名中  ‍♀️

全部嘉宾已就位   百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领網域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~

4 月 16 日周三,就在北京,一起来深度求索 AI 怎么用  

一键星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們