大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

豆包文科成績超了一本線,為什麼理科不行?

2024-07-02 简体 HK SG TW

今天小編分享的科學經驗:豆包文科成績超了一本線,為什麼理科不行?,歡迎閱讀。

什麼?好多大模型的文科成績超一本線,還是最卷的河南省???

△圖源:極客公園

沒錯,最近就有這麼一項大模型" 高考大摸底 "評測走紅了。

河南高考文科今年的一本線是 521 分,根據這項評測,共計四個大模型大于或等于這個分數,其中頭兩名最值得關注:

GPT-4o:562 分

字節豆包:542.5 分

……

從結果中來看,GPT-4o 的表現依舊是處于領先狀态,而在國產大模型這邊,比較亮眼的成績便屬于豆包了。

并且在語文和歷史等科目的成績甚至還超越了 GPT-4o。

這也讓不少網友紛紛感慨:

AI 文科成績這麼好,看來在處理語言和邏輯上還是很有優勢的。

不過有一說一,畢竟國產大模型的競争是如此之激烈,這份評測的排名真的靠譜嗎?發布僅數月的豆包,真具備此等實力嗎?以及這數學……又是怎麼一回事兒?

先看評測榜單

要回答上述的問題,我們不妨先來查一查豆包在最新的權威評測榜單中的表現是否一致。

首先有請由智源研究院發布的FlagEval(天秤)。

它的評測方式是這樣的:

對于開源模型, FlagEval 會綜合概率選擇和自由生成兩種方式來評測,對于閉源模型, FlagEval 只采用自由生成的方式來評測,兩種評測方式區别參照。

主觀評測時部分閉源模型對極小部分題目有拒絕回答的情形,這部分題目并沒有計入能力分數的計算。

在" 客觀評測 "這個維度上,榜單成績如下:

不難看出,這一維度下的 FlagEval 中,前四名的成績是與 " 高考大摸底 " 的名次一致。

大模型依舊分别來自 OpenAI、字節跳動、百度和百川智能。

并且豆包在 " 知識運用 " 和 " 數學能力 " 兩個維度上成績還高于第一名的 GPT-4。

若是将評測方式調節至" 主觀評測 ",那麼結果是這樣的:

此時,百度的大模型躍居到了第一名,而字節的豆包依舊是穩居第二的成績。

由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與 " 高考大摸底 " 的成績是比較接近的。

接下來,我們再來有請另一個權威測評——OpenCompass(司南)。

在最新的 5 月榜單中,豆包的成績也是僅次于 OpenA 家的大模型。

同樣的,在細分的 " 語言 " 和 " 推理 " 兩個維度中,豆包還是超越了 GPT-4o 和 GPT-4 Turbo。

但與專業評測冷冰冰的分數相比,人們都對高考有着更深刻的體驗和記憶。

那麼接下來我們就通過豆包回答高考題,來看看大模型在應對人類考試時的具體表現。

再看實際效果

既然目前許多試卷的題目都已經流出,我們不妨親測一下豆包的實力。

例如讓它先寫一篇新課标 I 卷語文的作文題目:

随着互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那麼,我們的問題是否會越來越少?

以上材料引發了你怎樣的聯想和思考?請寫一篇文章。

要求:選準角度,确定立意,明确文體,自拟标題;不要套作,不得抄襲;不得洩露個人信息;不少于 800 字。

△結果由豆包 PC 端對話生成

從豆包的作答上來看,是已經擺脫了 AI 寫作文經常犯的 " 首先 - 其次 - 以及 - 最後 " 這種模板式的寫法,也擅長引經據典來做論證。

但畢竟每個人對于文筆的審美标準不同,因此豆包高考作文寫得如何,評價就交給你們了(歡迎在留言區讨論)。

值得一提的是,在量子位向豆包團隊詢問後得知,原來豆包PC 端對話和手機端 " 拍題答疑 "是兩種截然不同的招式——

前者走的是LLM 鏈路,後者走的則是RAG 鏈路(若是用豆包手機端 " 拍題答疑 " 功能,高考數理化成績也能接近滿分)。

加上在這次 " 高考大摸底 " 評測出爐之後,很多網友們都将關注的重點聚焦到了數學成績上:

AI 也怕數學。

因此,接下來的實際效果測試,我們就将以"LLM 鏈路 + 數學 "的方式來展開。

先拿這次的選擇題來小試牛刀一下:

當我們把題目在 PC 端 " 喂 " 豆包之後,它的作答如下:

因此,豆包給出的答案是:

A、C、D、D、B、B、A、A

這裡我們再來引入排名第一選手GPT-4o的作答:

A、D、B、D、C、A、C、B

而根據網上目前多個信源得到的标準答案是:A、C、D、A、B、B、C、B。

對比來看,豆包對 5 道,GPT-4o 答對 4 道。

而對于更多的數學題的作答,其實復旦大學自然語言處理實驗室在高考試卷曝光後第一時間做了更加全面的測試(所有大模型只能依靠 LLM 推理答題,不能通過 RAG 檢索答案):

△圖源:復旦大學自然語言處理實驗室

由此可見,大模型并不能完全 hold 住高考數學題目,并且不同人生成答案的結果也會出現偏差。

并且量子位在反復測試後發現,豆包對話答題時有一定随機性,多輪測試時的結果并不完全一樣。上文只取樣其中一輪的結果。

這也正如廣大網友所反饋的那般——大模型文科強、理科弱。

對此,技術圈也已經有一些讨論和解釋:

大語言模型的基本原理是 " 文字接龍 ",通過預測下一個 token 來生成内容,每次預測都有随機性和概率分布。

當大語言模型學習了海量知識數據,天然就适應考驗記憶能力和語言運用的文科考試。

但理科考試主要考驗推理和計算,比如一道數學題包含 5 步推理和 5 步計算,假設大語言模型每一步預測準确的概率都有 90%,綜合下來的準确率就只有 35%。

另一方面,理科語料比較稀缺。大模型的訓練數據中,文科語料要遠遠大于理科語料。這也是大模型更擅長文科的一個原因。

大模型都在努力提升智能水平,主要目标就是提高推理和計算能力。目前學界對此存在争議,有觀點認為," 預測下一個 token" 本身就包含了推理,計算也是一種推理。

只要 Scaling Law 生效,大模型性能持續提升,推理和計算能力就能夠提升;但也有反對者(如 Yann LeCun)認為,大語言模型缺乏真正的規劃推理能力,其湧現能力實際上是上下文學習的結果,主要體現在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現 AGI,目前還沒有定論。

那是不是大模型就不适合用戶來解數學題了呢?

也并不全是。

正如剛才所說,如果用豆包手機端的 " 拍題答疑 ",也就是 RAG 鏈路的方式,那麼結果的 " 打開方式 " 就截然不同了。

我們可以先用豆包 APP 對着題目拍照,讓它先進行識别:

結果就是——全對!

至于更多類型題目大模型們的表現會如何,友友們可以拿着感興趣的題目自行測試一番了。

如何評價?

從 " 高考大摸底 " 和智源 FlagEval、上海 AI Lab OpenCompass 等評測上可以看到,豆包大模型已經穩穩進入國產第一梯隊。

但随即而來的一個問題便是,過去一年多異常低調的豆包,是如何在短短一個月内就開始爆發的?

其實早在發布之際,豆包與其它大模型廠商截然不同的路徑就已經有所體現,歸結其背後的邏輯就是:

只有最大的使用量,才能打磨出最好的大模型。

據了解,豆包大模型在 5 月 15 日正式發布時,其每天平均處理的 token 數量高達1200 億,相當于 1800 億的漢字;每天生成圖片的數量為 3000 萬張。

因此,我們可以把豆包在大模型性能上的路數,視為用" 左手使用量,右手多場景 "的方式反復打磨而來。

一言蔽之,大模型好不好,用一下就知道了。

并且基于豆包大模型打造的同名產品豆包 APP,已成為國内最受歡迎的 AIGC 類應用。

豆包,均拿下第一。

不僅如此,在前不久國產大模型 To B 市場打響價格戰之際,火山引擎也是相當 " 壕氣 " 讓大模型進入 " 厘時代 ",1 元 =1250000tokens。

因此,現在要如何評價字節跳動的大模型和應用,或許就是:

多:場景多,數據多

好:各路評測都能 hold 住

省:是衝在價格戰頭部的選手

但也正如我們剛才所述,現在的大模型還有很大的 " 進化 " 空間。

因此對于國產大模型在未來的發展,我們還需保持持續的關注;但毋庸置疑的一點是,字節的大模型和豆包,定然是最值得期待的其中一個。

參考鏈接:

[ 1 ] https://mp.weixin.qq.com/s/2IueZaiCuyVp97DT-bP4Ow

[ 2 ] https://flageval.baai.ac.cn/#/leaderboard/nlp-capability?kind=CHAT

[ 3 ] https://rank.opencompass.org.cn/leaderboard-llm/?m=24-05

[ 4 ] https://mp.weixin.qq.com/s/KYEsTA-qU72pXWnr7-iB4A

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們