今天小編分享的科技經驗:國產GPTs來了,基于智譜第4代大模型!模型性能均達GPT-4九成以上,歡迎閱讀。
衡宇 發自 凹非寺
量子位 | 公眾号 QbitAI
國產大模型玩家智譜 AI,交出最新成績單——
發布全自研第四代基座大模型 GLM-4,且所有更新迭代的能力全量上線。
作為國内唯一一個產品線全對标 OpenAI 的大模型公司,智譜年前攢了波大的:
按官方說法,GLM-4 性能相比 GLM-3 提升 60%,逼近 GPT-4(11 月 6 日最新版本效果)。
而同時推出的 GLM-4-All Tools,能夠完成用戶意圖理解 - 復雜指令規劃 - 自由調用 GLM 生态的多種模型能力。
值得一提的是,智譜發布了 GLMs,為所有開發者提供 AI 智能體定制能力,簡單 prompt 指令就能創建個性化 GLM 智能體。
之前,智譜 CEO 張鵬就明确過:
OpenAI 摸着石頭過河,我們摸着 OpenAI 過河。
摸來摸去摸了一年,以每 3-4 個月更新一次基座模型的速度,智譜摸着 OpenAI 過河的最新成績到底怎麼樣?真如所說嗎?
當官方用上 " 可對比 "" 對标 "" 追平 " 等字眼後,智譜接下來的路又會怎麼走?
好奇,感興趣,想知道。
(我猜你們也是)。
所以,發布 GLM-4 的智譜 AI 技術開放日現場,我們替沒到場的小夥伴聽了、看了;滿肚子的問題,我們也幫大家抓住張鵬問了。
GO ——
" 摸着 OpenAI",路走成什麼樣了?
智譜為什麼敢喊出 " 逼近 " 甚至部分超過 GPT-4?
老規矩,直接一起看 GLM-4 的現場演示:
首先來看整體性能。
基礎能力方面,張鵬在現場介紹了 GLM-4 在各項評測集上的最終得分。
MMLU:81.5,達到 GPT-4 的 94% 水平;
GSM8K:87.6 ,達到 GPT-4 的 95% 水平;
MATH :47.9,達到 GPT-4 的 91% 水平;
BBH :82.3,達到 GPT-4 的 99% 水平;
HellaSwag :85.4,達到 GPT-4 的 90% 水平;
HumanEval:72,達到 GPT-4 的 100% 水平。
指令跟随能力方面,和 GPT-4 相比,IFEval 在 Prompt 提示詞跟随(中文)方面達到 88%,指令跟随(中文)方面達到 90% 水平,超過 GPT-3.5。
對齊能力上,基于 AlignBench 數據集,GLM-4 超過了 GPT-4 的 6 月 13 日版本,逼近 GPT-4 最新(11 月 6 日版本)效果。
在專業能力、中文理解、角色扮演方面,GLM-4 超過 GPT-4 精度。
不過張鵬也表示,GLM-4 在中文推理方面的能力,還有待進一步提升。
其次,在大模型的 " 内存 " 能力方面,GLM-4 系列支持 128k 上下文視窗長度,單次提示詞可處理文本 300 頁,比前作有所提升。
在 needle test 大海撈針測試中,GLM-4 在 128K 文本長度内均可做到幾乎百分之百精度召回。
除此之外,GLM-4 系列集成了一些新能力在身上,主要是 Agent 能力和多模态能力。
多模态能力方面,GLM-4 則是把原本就有的文生圖(CogView3)、代碼能力做了更新。
智譜強調,CogView3 效果超過開源最佳的 Stable Diffusion XL,逼近 DALLE · 3。
至于 Agent 能力方面,此前智譜發布過 AgentLM 系列并開源。
這次是把 Agent 能力整合進了 GLM-4,有了 GLM-4-All Tools。
它可以根據用戶意圖,自動理解、規劃復雜指令,自由調用文生圖、代碼解釋器、網頁浏覽能力,以完成復雜任務。
對 GLM-4 的發布,綜合下來給人一種這樣的感覺:
去年 10 月底第 3 代基座大模型,該公司在模型產品線上和 OpenAI 逐一對齊;第 4 代是在拉齊模型能力和 OpenAI GPT-4 的能力水平線。
明顯能感覺到,智譜的基座模型越往後更新,越開始不強調模型參數大小,轉而開始盡可能地向外界展示可用能力。
為什麼不想強調參數規模了?會像 OpenAI 一樣逐漸 close 起來嗎?
量子位打聽了一番,聽到的消息是,現在的技術主流路線已經發現并不是參數量越大越好——當然,模型越 " 大 ",肯定能帶來能力湧現的好處,但模型越大,成本就越高,成本高自然不是市場想要追求的。
同時,現在的技術演進和發展已經表明,追求更好的能力,可以用一些更精細的方法,在保證模型無需十倍級提升參數的情況下,大幅提升性能。
以上兩個原因相加,是智譜也不再強調基座模型參數的背後原因。
參數不強調了,外界的目光自然更加緊盯這一代基座模型的性能——這确實是智譜這回想要強調的東西。
接下來将主要發力三個方向
" 大模型的技術,不是說把原來系統裡的小模型扔掉,換上大模型的接口就行了。這只是在局部做了替換,本質上并無改變。" 張鵬解釋道," 但我們大家潛意識裡期待的,是完全的革新和創新,是不需要原來的那套結構。"
他補充解釋,從新技術出發,改造整個生產流程、提升生產效率和生產力,這就是擁有大模型能力後,"AI 原生 " 會完成的任務。" 那 AI 原生的應用前提條件是什麼?還是得回到模型本身的能力。"
張鵬表示,模型能力足夠強、維度足夠多、能力要能融合產生化學反應從而擴大能力空間,本質上還是看模型能力的事兒。
我們想得很清楚,還是要做好我們最擅長、最喜歡的事情,然後大家一起來做這個生态。
為了把 GLM 的生态圈建起來、建好,摸着 OpenAI 過河的智譜,這會推出了可定制化的 GLM。
也就是 GLMs。
無論任何用戶,只要用簡單的 prompt 指令,就能創建屬于自己的 GLM 個性化智能體。
張鵬還在現場宣布,智譜智能體中心也同時上線。
等等 …… 既然 GLMs 有了,GLM Store 是不是也不遠了?!
好問題。量子位當然第一時間拿這個問題問了張鵬。
得到的答案是:
緊接着,我們锲而不舍地抛出了新的問題:
如果說之前的行為都是在摸着 OpenAI 過河,那麼現在,智譜的基座模型喊出對标 GPT-4,接下來的路會怎麼走?
張鵬稍稍透露了那麼一點,主要是在三個方向發力。
超級智能
超級對齊
具身智能
其中比較值得拿出來說道說道的,是 " 超級對齊 " 這一點。
這裡回顧一下有關超級對齊的前情提要:去年 7 月,OpenAI 首次提出超級對齊這一概念,宣布成了一個新的研究團隊,在未來 4 年投入 20% 算力,用 AI 監督 AI 的方式,解決超級智能 AI 與人類意圖對齊的問題。
" 我個人覺得,在(超級對齊)這件事情上,可能我們認知還沒有那麼深,或者說大家對這事情的認知不太一致。" 張鵬說。
在他看來,OpenAI 創始人之一 Ilya 想做到的超級對齊,是想要在 AI 從誕生之時起,就從底層保持着對人類最大限度的愛," 他是要去探尋本源。自訓練、自學習這樣的能力實際上是對世界知識的一種壓縮和表示,所以實現這個目标,需要從知識或數據層面來解決。"
簡單來說,Ilya 有關超級對齊的研究,可以等價為嘗試開黑盒,然後設法從 AI 智能產生的那一刻起,就和人類意圖對齊。
而張鵬表示,他個人在現階段更傾向于另一派的觀點,即從行為主義角度出發。
" 超級對齊究竟是什麼?想要對齊一個東西,這東西都還不存在,咋對齊?對齊啥呢?"
從行為學角度考慮,就不用考慮開黑盒的問題,研究者只需要像教育孩子一樣,先觀察小孩的行為。看到 AI 行為是錯的,就給一巴掌;行為是對的,就給一顆糖。
想要成為 "AGI 元年 ",2024 需要面對什麼?
2024 年,短短半個月期間,GPT 上線了 GPT Store,智譜推出了 GLM-4……
而這一年才剛剛開始。
熱鬧非凡的百模大戰打了一年,有的玩家已經偃旗息鼓了,但可以肯定,OpenAI 會帶領 GPT 繼續迭代,智譜或許也會繼續以 3-4 月更新一次基座模型的速度向前推進,國外的 Anthropic、Mistral AI、Google,國内的零一萬物、MiniMax 等都會如此。
那麼,如果按照業界默認,稱剛剛過去的 2023 年為大模型元年的話,2024 想要 " 化身 "AGI 元年,正面臨哪些挑戰?
去年 3 月,在量子位舉辦的 AIGC 峰會上,張鵬認為外界環境帶來的三大挑戰是人力、成本和算法。
當現在把這個問題丢到張鵬面前時,他的看法是,加入到大模型研究中的人已經極大豐富了,困境有所緩解;取代它位列新三大困境之一的則是 " 環境 "。
一方面,挑戰者能不能有足夠的敏銳度,從環境中尋找并掌握突破口?
張鵬用他前段時間在某群裡刷到的一個視頻作為形象的例子,那個視頻展示的是許多人小時候玩兒過的小球消磚塊遊戲。
最佳情況是把球從正好的角度打進磚塊包圍的缺口,然後形成數次拐彎,消滅掉所有的磚塊。
實際上這個機率很小,很多次都會和 " 正好 " 的角度擦肩而過;或者看似瞄準了缺口,又不幸地被擋住彈了回來。
終于有一天,你打進了缺口,然後什麼都不用幹,自然而然所有的磚塊都被消除了。
另一方面,在不斷試錯、不斷失敗的過程中,市場乃至整個社會對技術的耐心能夠持續多長時間?
如果市場失去耐心,大模型這樣一個消耗很大資源要做的事,立刻會陷入玩不下去的窘境。
然而玩彈球磚塊遊戲,很多人并不能堅持到磚塊全部消除。
" 前面的試錯、鋪墊是難以忍受的。就像面對科技創新,大家期待的都是最後的爆發時刻。"