40%算力訓練效果比肩GPT-4，實測DeepMind聯創大模型創業新成果 - 大酷樂

今天小編分享的科學經驗：40%算力訓練效果比肩GPT-4，實測DeepMind聯創大模型創業新成果，歡迎閲讀。

大模型競賽，又殺出一匹黑馬——

Inflection-2.5，由 DeepMind 聯創 Mustafa Suleyman 的大模型初創公司打造。

只用 40% 的計算資源訓練，表現就超過了 GPT-4 的九成，尤其擅長代碼和數學。

而早期的 Inflection 模型，訓練時只消耗了 4% 的計算資源，就達到了 GPT-4 表現的 72%。

以 Inflection 模型為基礎，該公司還推出了網頁端對話機器人 Pi，主打 " 高情商 " 和 " 個性化 "，還支持中文。

自誕生以來，Pi 的最高日活達到了 100 萬，累計產生了 40 億條消息，平均對話時長來到了 33 分鍾。

而随着這次基礎模型的更新，Pi 也迎來了它的新版本。

那麼，Inflection，或者説 Pi，表現到底有沒有那麼強，量子位進行了一番實測。

無需登錄即可使用

打開 Pi 的頁面，映入眼簾的是這樣一個極簡界面，而且還可以不用登錄，直接點擊 Next。

連續 Next 幾次後，輸入希望 Pi 稱呼我們的方式。

之後是選擇聲音和推薦話題，直接跳過就可以了，然後就進入正式的聊天界面了。

簡單測試發現，Pi 支持中文對話，既然如此那就先把弱智吧 Benchmark 給安排上。

第一題，老鼠生病了可以吃老鼠藥治好嗎，Pi 成功解答。

再來一道 " 陷阱 " 題，這次依舊沒有上當。

兩道問題過後，雖然沒有出現什麼戲劇性效果，但看起來對中文也是有一定的理解了。

接下來就重點看看官方宣稱 " 尤其擅長 " 的數學和代碼能力。

首先是一道涉及動态規劃的編程題目。

Pi 給出的代碼成功解決了這個問題，并且配有清晰的解釋。

接下來再提升一下難度看看，讓其分析一個數字的階乘中末尾有多少個 0。

Pi 給出的代碼不僅正确，而且簡潔高效，運行速度超過了 LeetCode 上 73.8% 的用户。

最後再來增加一下難度，以一道 47.5% 通過率的題目結束代碼部分的測試。

看完代碼，再來測測 Pi 的數學能力怎麼樣，讓它做做關于導數的題目：

求出函數 f ( x ) =x ³ +2x ² -1 的極值點

解答完全正确，而是十分詳細。

當然要想數學好，邏輯思維是必不可少的，所以我們在常規的數學題之外，又用一道經典的題目考驗了一下的 Pi 邏輯思維，結果還不錯。

通過 Pi 的表現，可以看出其背後的 Inflection-2.5 模型的确可圈可點。

而從官方自己公布的測試數據來看，無論是綜合能力還是各個子項，Inflection-2.5 的表現都緊随 GPT-4。

以數學和代碼為例，Inflection-2.5 在 MATH、HumanEval 等測試中都比 1.0 版本都有大幅飛躍。

在這些常規的數據集之外，Inflection 還挑戰了匈牙利高考數學試題和 GRE 物理測試，結果幾乎與 GPT-4 打成平手。

更 " 刁鑽 " 的，還有人專門用大模型難以理解的問題構建了一個 BIG-Bench 數據集，而 Inflection-2.5 挑戰了其中的 Hard 子集，結果和 GPT-4 的差距不到一分。

那麼，Inflection-2.5 的背後，是怎樣的一家公司呢？

DeepMind 聯創大模型創業

這家公司名叫Inflection AI，由 DeepMind 聯創 Mustafa Suleyman 等人于 2022 年創立，目前共有 70 餘人。

同樣來自 DeepMind 的，還有資深研究員 Karen Simonyan，現擔任 Inflection AI 的首席科學家。

此外，LinkedIn 聯創 Reid Hoffman 也參與了 Inflection AI 的創立。

創立以來，Inflection AI 已經獲得了來自英偉達、微軟、比爾蓋茨等巨頭的共計 15 億美元的融資。

目前，基于 Inflection 的 Pi 還是免費的，但 CEO Suleyman 也表示，一直用愛發電不現實，長久地看以後還是要收費。

想要體驗的朋友，可能要抓緊時間了 ~

傳送門：

https://pi.ai

參考鏈接：

[ 1 ] https://inflection.ai/inflection-2-5

[ 2 ] https://www.axios.com/2024/03/07/inflection-ai-chatgpt-openai-comparison

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重税打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？硅碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
解除資格！停止一切合作佼昌翰 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02