今天小編分享的科技經驗:半年多過去了,ChatGPT的排名快“墊底”了,歡迎閲讀。
圖片來源 @視覺中國
文 | 三言 Pro
昨天,筆者無意中刷到一張圖片。
據該圖片顯示,OpenAI 的 GPT-4 在 11 個大模型中(第一名序号為 0),已經排到了最後。還有網友配上了 "GPT4:我的冤屈怎麼訴?" 的字樣。
這不禁讓人好奇,今年年初,ChatGPT 爆火以後,其他公司才開始提大模型的概念。
這才半年多,GPT 就已經 " 墊底 " 了?
于是,筆者想看看 GPT 排名到底咋樣了。
測試時間不同,測試團隊不同,GPT-4 排第十一
從前文中圖片上顯示的信息來看,這個排名是出自 C-Eval 榜單。
C-Eval 榜單,全稱 C-Eval 全球大模型綜合性考試測試榜,是由清華大學、上海交通大學和愛丁堡大學合作構建的中文語言模型綜合性考試評估套件。
據悉,該套件覆蓋人文、社科、理工、其他專業四個大方向,包括 52 個學科,涵蓋微積分、線性代數等多個知識領網域。共有 13948 道中文知識和推理型題目,難度分為中學、本科、研究生、職業等四個考試級别。
于是筆者查看了最新的 C-Eval 榜單。
C-Eval 榜單的最新排名與前文中圖片所顯示的排名相符,排名前十一的大模型中,GPT-4 排最後。
據 C-Eval 榜單介紹,這些結果代表 zero-shot(零樣本學習)或者 few-shot(少樣本學習)測試,但 few-shot 不一定比 zero-shot 效果好。
C-Eval 表示,在其測試中發現許多經過指令微調之後的模型在 zero-shot 下更好。其測試的很多模型同時有 zero-shot 和 few-shot 的結果,排行榜中顯示了總平均分更好的那個設定。
C-Eval 榜單還注明了,大模型名字中帶 "*" 的,表示該模型結果由 C-Eval 團隊測試得到,而其他結果是通過用户提交獲得。
此外,筆者還注意到,這些大模型提交測試結果的時間有很大差别。
GPT-4 的測試結果提交時間是 5 月 15 日,而位居榜首的雲天書,提交時間為 8 月 31 日;排第二的 Galaxy 提交時間為 8 月 23 日;排第三的 YaYi 提交時間為 9 月 4 日。
并且,排名前 16 的這些大模型,只有 GPT-4 的名字加了 "*",是由 C-Eval 團隊測試的。
于是筆者又查看了完整的 C-Eval 榜單。
最新的 C-Eval 榜單一共收錄了 66 個大模型的排名。
其中,名字帶 "*",也就是由 C-Eval 團隊測試的,只有 11 個,且提交測試的時間均為 5 月 15 日。
這些由 C-Eval 團隊測試的大模型,OpenAI 的 GPT-4 排第十一,ChatGPT 排第三十六,而清華智譜 AI 的 ChatGLM-6B 排在第六十,復旦的 MOSS 排在了第六十四。
雖然這些排名可以看出國内的大模型發展勢頭的迅猛,但筆者認為,畢竟不是同一團隊在同一時間進行的測試,不足以完全證明這些大模型誰強誰弱。
這就好比,一個班的學生,每個人的考試時間不同,答的試卷也都不一樣,怎麼能靠每個學生的分數比高低呢?
大模型開發者怎麼説?多家表示在中文等能力上超過 ChatGPT
最近,大模型的圈子相當熱鬧。
又是百度、字節等 8 家公司大模型產品通過了《生成式人工智能服務管理暫行辦法》備案,可正式上線面向公眾提供服務。又是其他公司相繼發布自家大模型產品。
那這些大模型的開發者又都是怎麼介紹自家產品的呢?
7 月 7 日,在 2023 世界人工智能大會 " 大模型時代的通用人工智能產業發展機遇以及風險 " 論壇上,復旦大學計算機科學技術學院教授、MOSS 系統負責人邱錫鵬表示,復旦對話式大型語言模型 MOSS 在今年 2 月發布後,還在連續不停地迭代,"最新的 MOSS 已經能夠在中文能力上超過 ChatGPT。"
7 月底,網易有道上線翻譯大模型,網易有道 CEO 周楓公開表示,在内部的測試中,在中英互譯的方向上,已經超越 ChatGPT 的翻譯能力,也超過了谷歌翻譯的水準。
8 月下旬,在 2023 年亞布力論壇夏季高峰會上,科大訊飛創始人、董事長劉慶峰發表演講時稱,"訊飛星火大模型的代碼生成和補齊能力已經超過了 ChatGPT,其他各項能力正在快速追趕。當前代碼能力的邏輯、算法、方法體系、數據準備已就緒,所需要的就是時間和算力。"
商湯近期的新聞稿中稱,今年 8 月,新模型 internlm-123b 完成訓練,參數量提升至 1230 億。在全球 51 個知名評測集共計 30 萬道問題集合上,測試成績整體排名全球第二,超過 gpt-3.5-turbo 以及 meta 公司新發布的 llama2-70b 等模型。
據商湯介紹,internlm-123 在主要評測中,有 12 項成績排名第一。其中,在評測集綜合考試中的 agieval 分數為 57.8,超越 gpt-4 位列第一;知識問答 commonsenseqa 的評測分數為 88.5,排名第一;internlm-123b 在閲讀理解的五項評測中成績全部居榜首。
此外,在推理的五項評測中成績排名第一。
本月初,作業幫正式發布自研銀河大模型。
作業幫表示,銀河大模型在 C-Eval、CMMLU 兩大權威大語言模型評測基準的成績。數據顯示,作業幫銀河大模型以平均分 73.7 分位居 C-Eval 榜首;同時在 CMMLU 榜單 Five-shot 和 Zero-shot 測評中分别以平均分 74.03 分及 73.85 分位列第一,成為首個同時在上述兩大權威榜單平均分排名第一的教育大模型。
昨天,百川智能宣布正式開源微調後的 Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat 與其 4bit 量化版本。
百川智能創始人、CEO 王小川稱,經過微調之後的 Chat 模型,在中文領網域,在 Q&A 問答環境,或者摘要環境裏面,評價它的實際性能已經超過 ChatGPT-3.5 這樣的閉源模型。
今天,在 2023 騰訊全球數字生态大會上,騰訊正式發布混元大模型。騰訊集團副總裁蔣傑稱,騰訊混元大模型中文能力已經超過 GPT-3.5。
除了這些開發者的自我介紹,也有一些媒體和團隊對一種大模型進行評比。
8 月上旬,清華大學新聞與傳播學院教授、博士生導師沈陽所在團隊發布了《大語言模型綜合性能評估報告》。報告顯示,百度文心一言在三大維度 20 項指标中綜合評分國内領先,較優于 ChatGPT,其中中文語義理解排名靠前,部分中文能力較優于 GPT-4。
8 月中旬,有媒體報道稱,8 月 11 日,小米大模型 MiLM-6B 現身 C-Eval、CMMLU 大模型評測榜單。截至當前,MiLM-6B 在 C-Eval 總榜單排名第 10、同參數量級排名第 1,在 CMMLU 中文向大模型排名第 1。
8 月 12 日,天津大學發布《大模型評測報告》。報告顯示,GPT-4 和百度文心一言相較于其他模型綜合性能顯著領先,兩者得分相差不大,處于同一水平。文心一言已經在大部分中文任務中實現了對 ChatGPT 的超越,并逐步縮小與 GPT-4 的差距。
8 月下旬,有媒體報道稱,快手自研的大語言模型 " 快意 "(KwaiYii)已開啓内測。在最新的 CMMLU 中文向排名中,快意的 13B 版本 KwaiYii-13B 同時位列 five-shot 和 zero-shot 下的第一名,在人文學科、中國特定主題等方面較強,平均分超 61 分。
通過上述内容可以看出,這些大模型雖然紛紛号稱自己在某排名中居首,或者是在某某方面超越 ChatGPT,但大多是在一些具體的領網域表現優異。
另外,有一些綜合評分超過了 GPT-3.5 或 GPT-4,但 GPT 的測試是停留在 5 月的,誰能保證這近 3 個月的時間裏,GPT 沒有進步呢?
OpenAI 的處境
根據瑞銀集團 2 月的一份報告顯示,在 ChatGPT 推出僅兩個月後,它在 2023 年 1 月末的月活用户已經突破了 1 億,成為史上用户增長速度最快的消費級應用程式。
但 ChatGPT 的發展也不是那麼順利。
今年 7 月,有不少 GPT-4 用户吐槽,與之前的推理能力相比,GPT-4 的性能有所下降。
有些用户在推特以及 OpenAI 在線開發者論壇上指出了問題,集中于邏輯變弱、更多錯誤回答、無法跟蹤提供的信息、難以遵循指令、忘記在基本軟體代碼中添加括号,只能記得最近的提示等等。
8 月,又有一份報告稱,OpenAi 可能處于潛在的财務危機中,可能于 2024 年底破產。
報告中表示,OpenAI 僅運行其人工智能服務 ChatGPT 每天就要花費約 70 萬美元。目前,該公司正試圖通過 GPT-3.5 和 GPT-4 實現盈利,但是還尚未產生足夠的收入實現收支平衡。
不過,OpenAI 或許也有新的轉機。
日前,OpenAI 宣布,将于 11 月舉辦首屆開發者大會。
雖然 OpenAI 表示不會發布 GPT-5,但 OpenAI 稱将有來自世界各地的數百名開發人員與 OpenAI 團隊一起,提前一覽 " 新的工具 ",并且交流想法。
這可能意味着,ChatGPT 已經取得了新的進步。
另據澎湃新聞報道,8 月 30 日,一位知情人士透露,通過銷售 AI 軟體和驅動其運行的計算能力,OpenAI 預計将在未來 12 個月内實現超過 10 億美元的收入。
今天,又有媒體報道稱,本月晚些時候摩根士丹利将推出一款和 OpenAI 共同研發的生成式人工智能聊天機器人。
和摩根士丹利的銀行家打交道的人,非富即貴。如果這款即将推出的生成式人工智能聊天機器人能給摩根士丹的客户帶來不同的體驗,對 OpenAI 來説,也許會是一個巨大的收獲。
人工智能時代的到來,已經勢不可擋。至于到底誰更勝一籌,不能光靠自己説,還得讓用户來打分。我們也相信國内大模型一定會、一定能在各具體能力、綜合能力上趕超 ChatGPT。