大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

清华系出手!全球第一款端侧全模态理解模型开源

2024-12-16 简体 HK SG TW

今天小编分享的科技经验:清华系出手!全球第一款端侧全模态理解模型开源,欢迎阅读。

编辑 | Panken

智东西 12 月 16 日报道,今日,清华系 AI Infra 创企无问芯穹正式开源端侧解决方案中的全模态理解小模型 Megrez-3B-Omni,并同步开源其纯语言模型版本 Megrez-3B-Instruct。

Megrez-3B-Omni 为端侧而生,选择了最适合手机、平板等端侧设备的 30 亿参数黄金尺寸,结构规整,单模态版本的推理速度最大领先同精度模型300%。

该模型同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了同尺寸下最优性能。

其多模态能力可灵活切换,响应非常迅速。比如先随手拍张单据照片发给它,问 "6 个人 AA 人均多少钱 ",再语音输入让它写个诙谐文案催大家交钱,它能立即按要求出稿。

▲ Megrez-3B-Omni 可实现在语音、影像、文本多个模态之间自由切换

和同样三模态的 VITA(based on Mixtral 8×7B)、Baichuan-Omni-7B ,双模态的 MiniCPM-V 2.6(based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B,以及单一模态的 Qwen、Baichuan 等模型相比,Megrez-3B-Omni 在主流基准测试集上的表现都不逊色。

Megrez-3B-Instruct 还提供了WebSearch 功能,支持调用外部工具进行网页搜索。

无问芯穹成立于 2023 年 5 月,由清华大学电子工程系教授、系主任汪玉教授发起,汪玉的第一任博士毕业生夏立雪担任联合创始人兼 CEO。其技术团队源起于清华大学电子工程系 NICS-EFC 实验室,在模型压缩、推理加速及硬體能耗优化等领網域拥有深入的学术研究和深厚的工程实践经验,擅长模型轻量化、软硬體协同优化。

该公司以 " 释放无穹算力,让 AGI 触手可及 " 为使命,致力于成为大模型时代首选的 "算力运营商"。百度、智谱 AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。

今年 9 月,无问芯穹 CEO 夏立雪、无问芯穹战略运营 SVP 王梦菲在与智东西等媒体交流时透露,该公司今年已有一些规模化收入,主要来自销售算力,明年会进一步扩大市场份额。其端侧大模型推理处理器 LPU 将以 IP 形式,与合作伙伴做联合的芯片发布,计划明年有一些落地尝试。经其内部测算,无问芯穹预计将在3 到 5 年内实现盈利。

作为无问芯穹" 端模型 + 端軟體 + 端 IP" 端上智能一体化解决方案的重要构成,无问芯穹认为要实现端侧 AGI,像 Megrez-3B-Omni 这样的全模态理解模型是必不可少的一环。

无问芯穹称 Megrez-3B-Omni 是一个能力预览,接下来将持续迭代 Megrez 系列,提升自动化水平至 "edge device use" 效果,让用户只需要给出简单的语音指令,就可完成端设备的設定或应用操作,并将它作为" 端模型 + 端軟體 + 端 IP" 端上智能一体化解决方案的重要构成推向市场。

无问芯穹 Github、HuggingFace 主页以及 Modelers 魔乐、ModelScope 魔搭等社区均可获取 Megrez-3B-Omni 及其大语言模型版本。无问芯穹 Infini-AI 异构云平台上可获取大语言模型版本的 API 或直接在线体验。

Github 地址:https://github.com/infinigence/Infini-Megrez

HuggingFace 地址:https://huggingface.co/Infinigence/Megrez-3B-Omni

Infini-AI 异构云地址:https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

一、图片理解:3B 体量对标 34B 模型表现,轻松识别模糊印刷体、复杂手写字

在影像理解方面,Megrez-3B-Omni 参数规模仅为 3B,其综合性能表现却可以全面超过 34B 模型,包括 LLaVA-NeXT-Yi-34B 等模型,是目前 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上精度最高的影像理解模型之一。

▲图源:https://internvl.github.io/blog/2024-12-05-InternVL-2.5/

同时,Megrez-3B-Omni 在场景理解、OCR 等任务上也表现出色,能够准确洞察和分析影像中的场景内容,高效地从中提取文本信息。

比如发一张模糊截图,哪怕图片里的像素低清,该模型也能秒速识别。

▲ Megrez-3B-Omni 螢幕识别

随手拍一张复杂的手写字照片,它也能快速提取里面的关键信息。

▲ Megrez-3B-Omni 手写字体识别

二、文本理解:超越上一代 14B 最佳模型,读完课堂笔记秒出考题

在文本理解方面,作为全模态理解模型,Megrez-3B-Omni 没有牺牲模型的文本处理能力,将上一代 14B 大模型的优秀能力压缩至 3B 规模,以更少的资源消耗,实现了更高的性能输出,显著降低了计算成本、提升了计算效率。

该模型在 C-EVAL、MMLU/MMLU Pro、AlignBench 等多个权威测试集上更是取得端上模型最优精度,在文本理解方面取得全球领先地位。这为端侧设备的智能化提供了全新可能。

在理解长文本时,该模型能做到准确意图识别和极速推理。

它可以适用于教育等很多文字工作应用场景。比如让它参考课堂笔记,出一套包含 3 个问题的课后习题。

▲ Megrez-3B-Omni 文本理解

或者让它帮忙给代码捉虫。

▲ Megrez-3B-Omni 代码理解

三、音频理解:输入语音轻松提问,能听音、问图、解文

在语音理解方面,Megrez-3B-Omni 的效果比肩行业主流方案,不仅支持中文和英文的语音输入,还能够处理复杂的多轮对话场景,更能支持对输入图片或文字的语音提问,实现不同模态间的自由切换。

用户可以就任意模态内容发出语音指令,Megrez-3B-Omni 能根据语音指令直接响应文本,从一长段语音中快速提炼重点。

▲ Megrez-3B-Omni 语音理解

四、多场景灵活应用:支持网页搜索

Megrez-3B-Instruct 还特别提供了WebSearch 功能,使得模型能够智能地判断何时需要调用外部工具进行网页搜索,辅助回答用户的问题。

▲ WebSearch 支持

这样用户就能构建属于自己 AI 搜索,通过网络获取最新信息,克服小模型的幻觉问题和知识储备不足的局限。

模型有时候自身储备已经足够独立解决问题,这时过多的搜索调用反而可能降低推理速度和效果。Megrez-3B-Instruct 通过在搜索和对话之间智能切换,避免了过度依赖搜索或完全不调用搜索的问题。

除了可以自动决策工具调用时机之外,Megrez-3B-Instruct 还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。

这些能力都已集成于 Megrez-3B-Instruct 模型中,用户可通过 System Prompt 自由切换。

结语:一体化设计,推动端侧智能

相较于云端大模型,端侧模型需要在资源有限的设备上快速部署、高效运行,对降低模型计算和存储需求提出更高要求。

模型小,不一定就意味着速度快。

在将推理速度大幅提升背后,凭借对硬體特性的深入理解与利用,Megrez-3B-Omni 通过软硬體协同优化策略,确保了各参数与主流硬體高度适配,以实现硬體性能的利用最大化。

此前在提供端上智能一体化解决方案方面,无问芯穹秉持软硬协同理念已与多家知名智能设备和终端芯片厂商展开合作。

除端侧全模态理解模型外,该公司有端上推理軟體和 IP 设计方案,不仅支持 CPU、GPU、NPU 的同时推理,还能通过跨越软硬體层次的系统优化,额外带来最高可达70%的性能提升,最大化端侧硬體性能的利用,适应电腦、平板、手机乃至眼镜等轻量的端侧移动设备。

通过软硬體联合优化,在端上智能一体化解决方案内,无问芯穹还将推出与之相适配的端侧推理軟體与 LPU IP 等,通过 " 端模型 + 端軟體 + 端 IP" 一体化设计,为端侧设备提供更完整、对硬體利用更高效的智能方案,促进大模型在端侧设备上实现更高推理速度与更低能耗。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們