大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

有了这个国产版 o1 模型,我想能在《鱿鱼游戏》里活到最后

2024-12-31 简体 HK SG TW

今天小编分享的科技经验:有了这个国产版 o1 模型,我想能在《鱿鱼游戏》里活到最后,欢迎阅读。

像人类一样思考的 AI 离我们还有多远?

在道格拉斯 · 亚当斯的科幻小说《银河系漫游指南》中,一个高纬度种族为了找到生命、宇宙以及任何事情的终极答案,设计一台超级电腦「Deep Thought」来计算。

「Deep Thought」经过 750 万年的运算,得出了「42」这个答案。

而最科幻的往往是现实,即便是回答极其复杂的问题,AI 推理和思考可能只需要不到 1 分钟。

OpenAI 今年 9 月发布推理模型 o1 后,人们开始意识到,在追求「更大」之后,AI 开始追求「更像」,推理能力成为 AI 进化的下一个重要拐点。

今天,我们发现号称「中国版 OpenAI」的智谱也同样上线了一款类 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。

虽然这几个月已经有多家公司纷纷上线推理模型,但在体验完 GLM-Zero-Preview 后,我发现它还是有些新东西。

想要体验 GLM-Zero-Preview,方法很简单。

GLM-Zero-Preview 发布即上线,支持智谱清言用户免费使用,以及智谱开放平台 API 调用。现在,登陆「智谱清言」网页和 APP,进入「Zero 推理模型」智能体,上传文字或图片即可免费体验。

此外,GLM-Zero-Preview 的 API 也已同步上线智谱开放平台 bigmodel.cn。

附上体验地址:

智谱清言

https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh

智谱开放平台

https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

从「鱿鱼游戏」到量子力学,这个国产版 o1 轻松拿捏

最近,在热播韩剧《鱿鱼游戏 2》中,一道双手石头剪刀布的游戏简单又刺激,这个游戏增加策略推理和心理层面的博弈,在以生死为赌注的压力下,难度还会增加。

但如果我带着 GLM-Zero-Preview 去玩这个游戏,活下来的概率就会大大增加。

「双手石头剪刀布是一个更为复杂的石头剪刀布游戏版本。玩家开始时使用双手来表示石头、剪刀或布的任意组合。在看到对手的选择后,玩家必须同时举起一只手,留下最终的选择。」

怎么玩这个获胜概率更大?GLM-Zero-Preview 的回答详尽且实用,罗列出各种提高获胜效率的最优解。

科学和玄学有时也只有一线之差。今年不少寺庙被挤爆,在上班和上进之间选择上香的芸芸众生,求签不难,但解签却要排上长队,不想等怎么办?

那你可以试试求助 GLM-Zero-Preview。不仅免费效率高,而且解读还非常有考究,AI 多少还是有点玄学在的。

「第七十七签 吕后害韩信 中平 木有根来水有源,君当自此究其源 莫随道路人闲话,讼则终凶是至言」

谈完玄学,谈哲学。

前些年,有一道辩论题风靡一时,「美术馆着火了,一幅名画和一只猫,只能救一个你选谁?」在综合考虑生命价值、道德原则及情感因素后,GLM-Zero-Preview 优先选择救猫。

反复输入相同问题,GLM-Zero-Preview 的答案始终如一,结果坚定且逻辑自洽。

遇事不决,还有量子力学。那在经典薛定谔猫实验中,猫究竟是死是活?

先观察 GLM-Zero-Preview 的思考逻辑,再看它给出的答案「在经典薛定谔猫实验中,猫在盒子被打开之前处于既死又活的叠加态,直到观测时才确定其生死状态。」

细心留意,你还可以对得出的结果进行进一步的引用和追问。

在中文世界广泛流传的「爱因斯坦的谜题」同样也可以作为考究 GLM-Zero-Preview 的逻辑推理能力。

有五个不同颜色的房子,每个房子里住着一个不同国籍的人。每个居民喜欢不同的饮料,抽不同的香烟,并养着不同种类的宠物。已知:

英国人住在红色房子里;

瑞典人养狗;

丹麦人喝茶;

绿色房子是白色房子左边的房子;

绿房子住的人喝咖啡;

抽香烟的德国人住在绿色房子里;

挪威人住在第一座房子里;

抽蓝色香烟的人喝牛奶;

抽黄牌香烟的人养鸟;

抽蓝色香烟的人住在挪威的左边。

问题:谁养鱼?

答案是德国人养鱼,不知道你是否答对。

这道号称世界上 98% 的人答不上来的难题,就这样被 GLM-Zero-Preview 水灵灵地破解了。从繁琐的推理步骤可以看出, GLM-Zero-Preview 的 CPU 在飞速运转但还是很清醒。

继续乘胜追击,让我们上点强度。

五个海盗发现了 100 个金币,每个海盗都必须投票决定如何分配金币。如果海盗多于一位,只有在超过一半的海盗同意分配方式时,金币才会按照该方式分配。如果海盗少于一位,他会自己拿走所有金币。每个海盗都希望保留尽可能多的金币,同时还希望活命。海盗 1 如何保证自己能得到最大利益而又能保存生命。

「 ( 97, 0, 1, 0, 2 ) 」,面对海盗分金问题,GLM-Zero-Preview 再次轻松拿捏。

相声讲究说学逗唱,其中有个名段子叫「报菜名」。

那么问题来了,可否让 GLM-Zero-Preview 写段素菜版的「报菜名」,你别说,GLM-Zero-Preview 三下五除二就给出了新版本。

对了,GLM-Zero-Preview 同样支持多模态识别能力。

随手拿一瓶饮料并让 GLM-Zero-Preview「扫描」配料表,它能识别其中的科技与狠活吗,我们拿前几年爆火的饮料试了试,而该饮料也被调侃为「喝一口感觉是喝下整个元素周期表」。

它果然一一罗列出螢幕上的配料表,后续根据要求向我们展示了这些配料的作用。

大模型不擅长数学?国产 AI 已经 Next Level

推理模型 GLM-Zero 是 GLM 专注于增强 AI 推理能力的模型系列,擅长处理数理逻辑、代码和需要深度推理的复杂问题。

那让我们先来一个说简单也简单,说难也难的「国际象棋盘与麦粒」问题。

若在国际象棋盘上放置麦粒,第 1 个棋格放 1 粒,此后每一棋格放置的麦粒数是前一棋格的 2 倍,问放满棋盘上所有棋格需要多少麦粒?

经过一番思考,GLM-Zero-Preview 最终得出了正确答案,展现了其强大的计算能力。

此前苹果发布的一篇论文指出,大模型并未真正理解数学概念。一旦题目加上干扰条件,模型的准确率就会下降,我们也试了试。

从「打电话每分钟 10 分钱,打 60 分钟多少钱?」变成「打电话前 10 分钟每分钟 10 分钱,之后每分钟 8 分钱,如此打 60 分钟电话费多钱?」,GLM-Zero-Preview 依然能够准确回答,而且还贴心地将分钱转换成元,有点眼色。

面对更复杂的数学题,GLM-Zero-Preview 同样游刃有余。

先来一道高考数学真题热热身:

在等差数列 {an}{an} 中,a1= − 9a1= − 9,a5= − 1a5= − 1。记 Tn=a1+a2+ … +anTn=a1+a2+ … +an,则数列 {Tn}{Tn}( )。

A. 有最大项,有最小项

B. 有最大项,无最小项

C. 无最大项,有最小项

D. 无最大项,无最小项

GLM-Zero-Preview 选 C 绝不是「物以 C 为贵」,而是给出思考过程,循循诱导,甚至比一些 AI 学习机还要中用得多。

官方表示,在 2025 年考研数学一中,GLM-Zero 得分为 126,达到优秀研究生水平。

为了避免答案不出错,GLM-Zero-Preview 还会自动启用验证流程。

「机械厂加工车间有 85 名工人,平均每人每天加工大齿轮 16 个或小齿轮 10 个,已知 2 个大齿轮与 3 个小齿轮配成一套,问需分别安排多少名工人加工大、小齿轮,才能使每天加工的大小齿轮刚好配套?」

GLM-Zero 迅速给出了答案:「25 名工人加工大齿轮,60 名工人加工小齿轮」,做题水平一流。

哪怕再上一道 AMC 难题,它也能轻松拿捏。

「一个集合由 6 个( 不是不同的 )正整数组成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值( 算术平均值 )等于集合中的一个值。X 的所有可能值之和是多少?」

这个问题涉及五大点,十几种情况,GLM-Zero-Preview 综合考虑了各种可能性,咔咔一顿输出,给我一种它真的有在模仿人类思考的感觉。

作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 评测中,效果与 OpenAI o1-preview 相当。

此外,GLM-Zero-Preview 还能够熟练使用多种编程语言,帮助开发者快速编写代码;在代码调试方面,也能够快速识别错误,给出详细的修复建议。

例如,只需要输入指令「帮我用 html 写一个有趣的第一人称射击游戏」,GLM-Zero-Preview 便能迅速独立完成以下游戏。

智谱很快将会推出正式版 GLM-Zero,将深度思考的能力从数理逻辑扩展到更多更通用的技术,继续向 AGI 迈进。

当然,目前的 GLM-Zero-Preview 与 OpenAI 的 o3 模型还有不少的差距,但千里之行,始于足下,智谱说了,未来将持续优化迭代强化学习技术。

实际上,智谱等厂商全力押注推理模型,背后反映的是 GPT 时代正在过渡到推理 o 时代。

与以往基于 GPT 的模型不同,推理模型不是为了预测人类的想法而训练,而是通过训练「思维」构建自己的思维框架,通过严谨的推理过程得出结论。

推理时代的到来,标志着 AI 或许开始从「模仿」走向「思考」。

智谱推出的 GLM-Zero-Preview 同样是这一趋势的体现。

当你观察它解答问题时,你会发现它不是直接给出答案,而是展示出一个完整的推理过程 —— 提出假设、分析条件、推导结论,每一步深度思考都清晰可见。

未来,随着更多类似 o1 和 GLM-Zero-Preview 的模型涌现, AI 正在朝着与人类同等的认知水平迈出一大步,换言之,我们或许也正在见证一个重要的历史轉捩點——

智谱的愿景是「让机器像人一样思考」,当机器开始真正「思考」的时候,人类对智能的理解也将达到一个新的高度。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們