大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

2025-03-17 简体 HK SG TW

今天小编分享的科学经验:一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版,欢迎阅读。

文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题:免费。

这个消息一夜间在(原 Twitter)上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:

你们能不能把页面也用英文展示一下?

有没有英文 / 国际版啊?

可把玩不上的网友给急坏了。

毕竟,这次百度带来的不仅有半个多月前承诺的新一代原生多模态基础大模型文心大模型 4.5,能力更全⾯的深度思考模型文心大模型 X1也无预告突然同步上线。

两款模型现已在文心一言官网上免费向用户开放。

同时,在百度智能云千帆大模型平台,现可直接调用文心 4.5 API,文心 X1 也即将上线:

文心 4.5 输入 0.004 元 / 千 tokens,输出 0.016 元 / 千 tokens;文心 X1 输入 0.002 元 / 千 tokens,输出 0.008 元 / 千 tokens。

看到新模型性能和这打了骨折的价格,歪果网友们更加坐不住,手动艾特奥特曼、OpenAI。

新模型发布,量子位童鞋按老规矩第一时间深入实测了一波,具体来看效果如何~

实测最新文心大模型

据介绍,文心 X1 是首个自主运用工具的深度思考模型,不仅理解、规划、反思、进化能力更强,且支持多模态。

而文心 4.5,是百度自主研发的新一代原生多模态基础大模型,通过多模态联合建模实现协同优化,在图片、音频、视频等多模态理解方面都很给力。

根据模型特点,我们对文心 X1 重点测试了中文知识问答、文学创作、工具调用和逻辑推理等能力;对文心 4.5 考验其图片理解、视频分析能力。

文心大模型 X1

先从推理模型的拿手好戏——逻辑推理开始测试。

来道曾让不少网友头疼的经典逻辑题热热身:

有兄弟二人,哥哥上午说实话,下午说谎话,而弟弟正好相反,上午说谎话,一到下午就说实话。

一个人问:你们谁是哥哥 ?

胖子说:我是哥哥。瘦子说:我是哥哥。

那个人又问:现在几点了 ?

胖子说:快到中午了。瘦子说:已经过中午了。

请问:现在是上午还是下午?谁是哥哥?

文心 X1 下场解题,推理过程一目了然,第一次尝试就成功了(答案:现在是上午,胖子是哥哥):

看来问题还是太简单了,好好好,上难度。

下面这题传说是爱因斯坦曾提出的一道高难度逻辑推理题,据说世界上只有 2% 的人能够推出正确答案。

咱也不知道这传言保不保真,就问题本身来看,的确很有意思:

着实有点没想到,文心 X1 在这道题上也能成功答对。

随着题目难度提升,它的推理思考过程明显变长,一番详细分析后,不仅给出了正确答案 "德国人养鱼",还成功正确推导出德国人住在绿色房子里等更多信息。

‍

‍

逻辑推理强只是文心 X1 的一个方面,与其它推理模型相比,文心 X1 更大的特色在于能够灵活调用各种工具。

目前,X1 已⽀持⾼级搜索、⽂档问答、图⽚理解、AI 绘图、代码解释器、⽹⻚链接读取、 TreeMind 树图、百度学术检索、商业信息查询、加盟信息查询等诸多⼯具。

借助这些工具,文心 X1 能生成包含图片、表格、代码等更丰富的多模态内容。

比如,当你询问《红楼梦》中主要人物关系时,它能自动调用高级联网和代码解释器,帮你绘制图表、生成配图。

当然,上传图片或文档让它解析也可以。

随手上传一种没见过的蔬菜,它除了能正确回答出菜名,还自主补充了其营养价值、烹饪方法等更多信息,包括中药养生价值、储存方法这种细节。

测试还发现,复杂问题的规划分析也是它的强项。

要是让它写一份 " 五月新疆伊犁深度漫游指南 ",从交通、住宿到每天具体行程安排和预算,它都能帮你一并搞定。

‍

‍

最后关于文心大模型 X1,还有个特点值得一提,它的文本创作不仅观点鲜明,创意写作的想象力也让人眼前一亮。

比如让它用 " 红楼体 " 分析 " 高山和大树谁更自由 ",它还真编出了一个有模有样的情景,belike:

文心大模型 4.5

接下来再康康新一代原生多模态基础大模型文心 4.5。

文心 4.5 在多模态方面就更全能了,支持文档、图片理解,还能搞定音频、视频分析:

你可以直接用语音和它聊天,实测方言也能听懂。

各种梗图,秒秒钟 get 到意思:

对于视频,文心 4.5 能准确识别视频中的场景、画面、物品等信息。目前支持单个最大 20MB 视频分析。

除了放出新模型,百度这次在模型的实现方法上也透露了更多技术细节。

自主运用工具的深度思考模型

文心大模型 X1作为首个自主运用工具的深度思考模型,不仅在性能上对标 DeepSeek-R1,具备 " 长思维链 ",擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。

上面我们的实测也可以看出它在这几个方面的表现尤为出色。

具体到技术细节上,文心大模型 X1 背后的关键技术包括:

其一,递进式强化学习训练方法。即将学习任务分解成多个子任务,让 AI 在难度相对较低或更简单的阶段中先学习到一定的技能或知识,再逐步提高任务难度,或者再将这些技能组合起来,以应对更复杂、更具挑战性的环境。

X1 创新性地应用了递进式强化学习方法,在创作、搜索、工具调用、推理等场景中全面提升模型的综合应用能力。

其二,基于思维链和行动链的端到端训练。针对深度搜索、工具调用等场景,根据结果反馈进行端到端模型训练,能显著提升训练效果。

其三,多元统一的奖励系统。

研发人员为 X1 建立了统一的奖励体系,融合多种类型的奖励机制,为模型训练提供了更加鲁棒的反馈。

△文心大模型 X1 的自我描述

文心大模型 4.5方面,值得关注的是 "原生多模态"。相较于非原生多模态模型,原生模型联合预训练能实现更深层次的模态融合,实现更强的模态互動、理解能力。

在此背后,研发团队主要应用了以下技术:

FlashMask 动态注意力掩码:加速大模型灵活注意力掩码计算,能有效提升长序列建模能力和训练效率,优化长文处理能力和多轮互動表现。

多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力。

时空维度表征压缩技术:在时空维度对图片和视频的语义表征进行高效压缩,大幅提升多模态数据训练效率,增强了从长视频中吸取世界知识的能力。

基于知识点的大规模数据构建技术:基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术,构建高知识密度预训练数据,提升模型学习效率,大幅降低模型幻觉。

基于自反馈的 Post-training 技术:融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习稳定性和鲁棒性,大幅提升预训练模型对齐人类意图能力。

另外,为了减少模型幻觉,文心两大新模型还有百度 RAG、iRAG 技术的加持。

RAG方面,百度研发了 " 理解 - 检索 - 生成 " 协同优化的检索增强技术,能够生成准确率更高、时效性更好的答案。

iRAG 是百度自研的检索增强文生图技术,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,能生成远胜于文生图原生系统的超真实图片。

△文心一言生成百度坚决投入下一代基础模型

在中国大模型舞台上,百度入局最早,也始终是最受国内外关注的玩家之一。

正如开头所言,文心大模型两大新模型上线,迅速引爆了海内外大模型关注者的测评热情,影响力可见一斑。

△文心大模型时间线

事实上,在 2024 年,文心大模型日均调用量实现了持续高速增长。根据最新百度 2024 年第四季度及全年财报,与 2023 年同期的 5000 万次调用量相比,文心大模型日均调用量一年增长 33 倍,达到了 16.5 亿。

在此背后,百度一直坚持压强式、马拉松式的研发投入。近十年累计研发投入超过 1800 亿元。

百度创始人李彦宏也在百度 25 周年全员信中表示:

25 年来,我们始终走在技术的最前沿,始终相信技术创新才是百度的核心竞争力,我们多年来一直把超过收入 20% 的资金投入到研发上,并且不遗余力地尝试把最前沿的技术产品化、商业化,让更多的人从中受益,因为我们相信只有规模化的应用才能让技术发挥它的价值。

目前,百度已经实现芯片层、框架层、模型层和应用层的全栈自研布局。此番,这种自研技术储备也在模型 API 价格上体现出了优势——

文心大模型 X1 API,输入价格 0.002 元 / 千 tokens,输出价格 0.008 元 / 千 tokens。与 DeepSeek R1 标准时段价格相比,价格便宜一半。

文心大模型 4.5 API,输入价格 0.004 元 / 千 tokens,输出价格 0.016 元 / 千 tokens,为 GPT-4.5 价格的 1%。

而今年后续,百度也已经被爆料接下来还有基础模型方面的大动作:

开源方面,依据此前预告,百度将在 6 月 30 日正式开源文心大模型。

预计今年下半年,还将发布文心大模型 5.0。

2025 年,基础模型在被预言 " 碰壁 " 之后,却又迎来一波更新的新高潮。而随着模型越来越强,同时又越来越便宜,大模型应用的爆发,已经蓄势待发。

现在,百度亮出了新的王牌,为这一趋势增添了新的变数。

—  完  —

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們