大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠

2024-04-03 简体 HK SG TW

今天小編分享的科學經驗:“大海撈針”out!“數星星”成測長文本能力更精準方法,來自鵝廠,歡迎閲讀。

大模型長文本能力測試,又有新方法了!

騰訊 MLPD 實驗室,用全新開源的" 數星星 "方法替代了傳統的 " 大海撈針 " 測試。

相比之下,新方法更注重對模型處理長依賴關系能力的考察,對模型的評估更加全面精準。

利用這種方法,研究人員對 GPT-4 和國内知名的 Kimi Chat 進行了 " 數星星 " 測試。

結果,在不同的實驗條件下,兩款模型各有勝負,但都體現出了很強的長文本能力。

△橫軸系以 2 為底的對數坐标

那麼," 數星星 " 究竟是怎樣的一種測試呢?

比 " 大海撈針 " 更加精準

首先,研究人員選擇了一段長文本做為上下文,測試過程中長度逐漸遞增,最大為 128k。

然後,根據不同的測試難度需求,整段文本會被劃抽成 N 段,并向其中插入 M 個包含 " 星星 " 的句子。

實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了 " 小企鵝數了 x 顆星星 " 這樣的句子,每個句子中的 x 都各不相同。

然後,模型會被要求找到所有這樣的句子,并以 JSON 格式輸出其中所有的數字,且只輸出數字。

得到模型的輸出之後,研究人員會将這些數字和 Ground Truth 進行對比,最終計算出模型輸出的正确率。

相比于之前的 " 大海撈針 " 測試,這種 " 數星星 " 的方法更能體現出模型處理長依賴關系能力。

簡而言之," 大海撈針 " 中插入多個 " 針 " 就是插入多個線索,然後讓大模型找到并串聯推理多個線索,并獲得最終答案。

但實際的 " 大海撈多針 " 測試中,模型并不需要找到所有 " 針 " 才能答對問題,甚至有時只需要找到最後一根就可以了。

但 " 數星星 " 則不同——因為每句話中 " 星星 " 的數量都不一樣,模型必須把所有星星都找到才能把問題答對。

所以,雖然看似簡單,但至少在多 " 針 " 任務上," 數星星 " 對模型長文本能力有着更為精準的體現。

那麼,有哪些大模型最先接受了 " 數星星 " 測試呢?

GPT-4 與 Kimi 難分高下

參加這場測試的大模型分别是 GPT-4 和國内以長文本能力而知名的大模型 Kimi。

在 " 星星 " 數量和文本粒度均為 32 時,GPT-4 的準确率達到了 96.8%,Kimi 則有 86.4%。

但當 " 星星 " 增加到 64 顆時,Kimi 則以 93.1% 的準确率超過了準确率為 89.7% 的 GPT-4.

減少到 16 時,也是 Kimi 的表現略勝于 GPT-4。

而劃分的顆粒度也會對模型的表現造成一些影響,在 " 星星 " 同樣出現 32 次時,顆粒度從 32 變為 16,GPT-4 的成績有所上升,而 Kimi 則有所下降。

需要注意的是,在以上的測試中," 星星 " 的數量是依次遞增的,但研究人員很快發現,這種情況下大模型很喜歡 " 偷懶 " ——

當模型發現星星數量是遞增的的時候,即使區間内的數字是随機生成,也會引起大模型的敏感度增加。

例如:模型對 3、9、10、24、1145、114514 這樣的遞增序列會比 24、10、3、1145、9、114514 更加敏感

所以,研究人員又特意将數字的順序進行了打亂,重新進行了一次測試。

結果在打亂之後,GPT-4 和 Kimi 的表現都出現了明顯下降,不過準确率仍在 60% 以上,兩者相差 8.6 個百分點。

One More Thing

這個方法的準确性可能還需要時間檢驗,但不得不説名字起得真的很有一手。

△英文系同名歌曲 Counting Stars 歌詞

網友也不禁感嘆,現在關于大模型的研究,真的是越來越魔幻了。

但魔幻的背後,也體現出人們對于大模型長語境處理能力和性能的了解還不夠充分。

就在前些天,先後有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基于上下文視窗實現),最高可達上千萬,但實際表現還是未知數。

而 Counting Stars 的出現,或許正好有助于我們了解這些模型的真實表現。

那麼,你還想看看哪些模型的測試成績呢?

論文地址:

https://arxiv.org/abs/2403.11802

GitHub:

https://github.com/nick7nlp/Counting-Stars

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們