“大海撈針”out！“數星星”成測長文本能力更精準方法，來自鵝廠 - 大酷樂

今天小編分享的科學經驗：“大海撈針”out！“數星星”成測長文本能力更精準方法，來自鵝廠，歡迎閲讀。

大模型長文本能力測試，又有新方法了！

騰訊 MLPD 實驗室，用全新開源的" 數星星 "方法替代了傳統的 " 大海撈針 " 測試。

相比之下，新方法更注重對模型處理長依賴關系能力的考察，對模型的評估更加全面精準。

利用這種方法，研究人員對 GPT-4 和國内知名的 Kimi Chat 進行了 " 數星星 " 測試。

結果，在不同的實驗條件下，兩款模型各有勝負，但都體現出了很強的長文本能力。

△橫軸系以 2 為底的對數坐标

那麼，" 數星星 " 究竟是怎樣的一種測試呢？

比 " 大海撈針 " 更加精準

首先，研究人員選擇了一段長文本做為上下文，測試過程中長度逐漸遞增，最大為 128k。

然後，根據不同的測試難度需求，整段文本會被劃抽成 N 段，并向其中插入 M 個包含 " 星星 " 的句子。

實驗過程中，研究人員選擇了《紅樓夢》作為上下文文本，向其中加入了 " 小企鵝數了 x 顆星星 " 這樣的句子，每個句子中的 x 都各不相同。

然後，模型會被要求找到所有這樣的句子，并以 JSON 格式輸出其中所有的數字，且只輸出數字。

得到模型的輸出之後，研究人員會将這些數字和 Ground Truth 進行對比，最終計算出模型輸出的正确率。

相比于之前的 " 大海撈針 " 測試，這種 " 數星星 " 的方法更能體現出模型處理長依賴關系能力。

簡而言之，" 大海撈針 " 中插入多個 " 針 " 就是插入多個線索，然後讓大模型找到并串聯推理多個線索，并獲得最終答案。

但實際的 " 大海撈多針 " 測試中，模型并不需要找到所有 " 針 " 才能答對問題，甚至有時只需要找到最後一根就可以了。

但 " 數星星 " 則不同——因為每句話中 " 星星 " 的數量都不一樣，模型必須把所有星星都找到才能把問題答對。

所以，雖然看似簡單，但至少在多 " 針 " 任務上，" 數星星 " 對模型長文本能力有着更為精準的體現。

那麼，有哪些大模型最先接受了 " 數星星 " 測試呢？

GPT-4 與 Kimi 難分高下

參加這場測試的大模型分别是 GPT-4 和國内以長文本能力而知名的大模型 Kimi。

在 " 星星 " 數量和文本粒度均為 32 時，GPT-4 的準确率達到了 96.8%，Kimi 則有 86.4%。

但當 " 星星 " 增加到 64 顆時，Kimi 則以 93.1% 的準确率超過了準确率為 89.7% 的 GPT-4.

減少到 16 時，也是 Kimi 的表現略勝于 GPT-4。

而劃分的顆粒度也會對模型的表現造成一些影響，在 " 星星 " 同樣出現 32 次時，顆粒度從 32 變為 16，GPT-4 的成績有所上升，而 Kimi 則有所下降。

需要注意的是，在以上的測試中，" 星星 " 的數量是依次遞增的，但研究人員很快發現，這種情況下大模型很喜歡 " 偷懶 " ——

當模型發現星星數量是遞增的的時候，即使區間内的數字是随機生成，也會引起大模型的敏感度增加。

例如：模型對 3、9、10、24、1145、114514 這樣的遞增序列會比 24、10、3、1145、9、114514 更加敏感

所以，研究人員又特意将數字的順序進行了打亂，重新進行了一次測試。

結果在打亂之後，GPT-4 和 Kimi 的表現都出現了明顯下降，不過準确率仍在 60% 以上，兩者相差 8.6 個百分點。

One More Thing

這個方法的準确性可能還需要時間檢驗，但不得不説名字起得真的很有一手。

△英文系同名歌曲 Counting Stars 歌詞

網友也不禁感嘆，現在關于大模型的研究，真的是越來越魔幻了。

但魔幻的背後，也體現出人們對于大模型長語境處理能力和性能的了解還不夠充分。

就在前些天，先後有多家大模型廠商宣布推出能夠處理超長文本的模型（雖然不全是基于上下文視窗實現），最高可達上千萬，但實際表現還是未知數。

而 Counting Stars 的出現，或許正好有助于我們了解這些模型的真實表現。

那麼，你還想看看哪些模型的測試成績呢？

論文地址：

https://arxiv.org/abs/2403.11802

GitHub：

https://github.com/nick7nlp/Counting-Stars