40%算力训练效果比肩GPT-4，实测DeepMind联创大模型创业新成果 - 大酷樂

今天小编分享的科学经验：40%算力训练效果比肩GPT-4，实测DeepMind联创大模型创业新成果，欢迎阅读。

大模型竞赛，又杀出一匹黑马——

Inflection-2.5，由 DeepMind 联创 Mustafa Suleyman 的大模型初创公司打造。

只用 40% 的计算资源训练，表现就超过了 GPT-4 的九成，尤其擅长代码和数学。

而早期的 Inflection 模型，训练时只消耗了 4% 的计算资源，就达到了 GPT-4 表现的 72%。

以 Inflection 模型为基础，该公司还推出了网页端对话机器人 Pi，主打 " 高情商 " 和 " 个性化 "，还支持中文。

自诞生以来，Pi 的最高日活达到了 100 万，累计产生了 40 亿条消息，平均对话时长来到了 33 分钟。

而随着这次基础模型的更新，Pi 也迎来了它的新版本。

那么，Inflection，或者说 Pi，表现到底有没有那么强，量子位进行了一番实测。

无需登录即可使用

打开 Pi 的页面，映入眼帘的是这样一个极简界面，而且还可以不用登录，直接点击 Next。

连续 Next 几次后，输入希望 Pi 称呼我们的方式。

之后是选择声音和推荐话题，直接跳过就可以了，然后就进入正式的聊天界面了。

简单测试发现，Pi 支持中文对话，既然如此那就先把弱智吧 Benchmark 给安排上。

第一题，老鼠生病了可以吃老鼠药治好吗，Pi 成功解答。

再来一道 " 陷阱 " 题，这次依旧没有上当。

两道问题过后，虽然没有出现什么戏剧性效果，但看起来对中文也是有一定的理解了。

接下来就重点看看官方宣称 " 尤其擅长 " 的数学和代码能力。

首先是一道涉及动态规划的编程题目。

Pi 给出的代码成功解决了这个问题，并且配有清晰的解释。

接下来再提升一下难度看看，让其分析一个数字的阶乘中末尾有多少个 0。

Pi 给出的代码不仅正确，而且简洁高效，运行速度超过了 LeetCode 上 73.8% 的用户。

最后再来增加一下难度，以一道 47.5% 通过率的题目结束代码部分的测试。

看完代码，再来测测 Pi 的数学能力怎么样，让它做做关于导数的题目：

求出函数 f ( x ) =x ³ +2x ² -1 的极值点

解答完全正确，而是十分详细。

当然要想数学好，逻辑思维是必不可少的，所以我们在常规的数学题之外，又用一道经典的题目考验了一下的 Pi 逻辑思维，结果还不错。

通过 Pi 的表现，可以看出其背后的 Inflection-2.5 模型的确可圈可点。

而从官方自己公布的测试数据来看，无论是综合能力还是各个子项，Inflection-2.5 的表现都紧随 GPT-4。

以数学和代码为例，Inflection-2.5 在 MATH、HumanEval 等测试中都比 1.0 版本都有大幅飞跃。

在这些常规的数据集之外，Inflection 还挑战了匈牙利高考数学试题和 GRE 物理测试，结果几乎与 GPT-4 打成平手。

更 " 刁钻 " 的，还有人专门用大模型难以理解的问题构建了一个 BIG-Bench 数据集，而 Inflection-2.5 挑战了其中的 Hard 子集，结果和 GPT-4 的差距不到一分。

那么，Inflection-2.5 的背后，是怎样的一家公司呢？

DeepMind 联创大模型创业

这家公司名叫Inflection AI，由 DeepMind 联创 Mustafa Suleyman 等人于 2022 年创立，目前共有 70 余人。

同样来自 DeepMind 的，还有资深研究员 Karen Simonyan，现担任 Inflection AI 的首席科学家。

此外，LinkedIn 联创 Reid Hoffman 也参与了 Inflection AI 的创立。

创立以来，Inflection AI 已经获得了来自英伟达、微软、比尔盖茨等巨头的共计 15 亿美元的融资。

目前，基于 Inflection 的 Pi 还是免费的，但 CEO Suleyman 也表示，一直用爱发电不现实，长久地看以后还是要收费。

想要体验的朋友，可能要抓紧时间了 ~

传送门：

https://pi.ai

参考链接：

[ 1 ] https://inflection.ai/inflection-2-5

[ 2 ] https://www.axios.com/2024/03/07/inflection-ai-chatgpt-openai-comparison

熱門排行

王治郅：杨瀚森主要的问题是速度他的速度跟郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击外国电影習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回旋镖：「折衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵权诉讼，后郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人士：之前断袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌两家公司集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商联合银行佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅西姆巴佩甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02