LLM推理性能受輸出格式影響，JSON最嚴重

今天小編分享的科學經驗：LLM推理性能受輸出格式影響，JSON最嚴重，歡迎閱讀。

輸出格式不同，竟然還能影響大模型發揮？！

兩種提示下讓大語言模型（LLMs）解同一道數學題，問題如下：

Eliza 每周工作的前 40 小時，每小時的工資是 10 美元，加班費每小時 x1.2。如果 Eliza 這周工作了 45 小時，她這周的收入是多少？

思維鏈 prompt：" 按照以下格式提供輸出，逐步推理：…回答：最終答案是… "。

格式限制 prompt：" 按照以下有效的 JSON 格式提供輸出：…（具體 JSON 格式見圖）"。

正确答案是460，可以看出，思維鏈（讓模型一步步思考）奏效，格式限制（" 以 JSON 格式輸出 "）卻失敗了！！

這是台灣大學和 Appier AI Research 新研究中的一幕，他們發現——

格式限制這玩意兒會降低 LLMs 的推理能力，且限制越嚴推理越差。（主打一個叛逆）

不過好消息是，能治。

他們發現，最佳解決方案是搞個 " 二次轉換 "（倒爺是吧），即 LLMs 首先用自然語言回答問題，然後再将答案轉換為目标格式。

在這個過程中，他們對比了 GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash 等不同模型在生成不同格式數據時的性能差異，結果又發現：

GPT 喜歡 YAML、Claude 喜歡 XML、Gemini/Gemma 喜歡 JSON。（主打各有所愛）

看完研究，有網友點出了它對平衡結構化生成和任務推理的意義：

格式限制會降低 LLMs 推理能力

上述研究已發表在 arXiv 上，論文主要揭示了，在格式限制下，LLMs 的推理能力顯著下降，尤其是在 JSON 模式下。

一直以來，将 LLMs 納入工業應用程式的一個主要障礙是它們缺乏對标準化輸出格式的遵守。

一種常見解決方法是結構化生成，即通過格式限制讓 LLMs 以 JSON 或 XML 等标準化格式提供輸出。

不過話說回來，雖然有多種方式可以實現這種限制，但後續影響卻無人研究。（限制是否影響模型性能呢 ?）

說幹就幹，研究人員采用3 種常見方法來評估不同格式限制對下遊性能的影響：

JSON-mode：通過預定義的标記空間限制 LLMs 的輸出

FRI：指導 LLMs 生成符合特定模式的标準化格式響應

NL-to-Format：兩步過程，首先用自然語言回答問題，然後轉換為目标格式

對了，還要加上自然語言（NL），它是最不受限的格式，允許模型以自然語言自由地回答問題。

評估對象是 GSM8K（包含自然語言環境中的數學問題）和 Last Letter Concatenation（最後一個字母連接任務）這兩個需要精确匹配答案的數據集，以及 Shuffled Objects（洗牌對象追蹤任務）。

他們發現，在這些涉及推理的任務中，更寬松的提示通常會得到更好的結果。

同時，JSON 模式在大多數情況下表現最差，其次是格式限制指令（FRI），然後是自然語言到格式（NL to Format）轉換，以及自然語言（NL）提示。

研究還發現，不同的 LLMs 對不同的數據格式表現出不同的偏好。

例如，GPT 更喜歡 YAML 格式，Claude 更喜歡 XML 格式，而 Gemini/Gemma 則更傾向于 JSON 格式。

不過，在分類任務中，格式限制可能提高了準确性，因為它減少了可能的答案選擇，從而降低了錯誤率。

他們進一步總結了格式限制會降低模型推理能力的原因，主要包括：

限制了模型生成必要中間推理步驟的能力。

強制的格式要求可能與模型自然生成答案的方式不兼容。

格式錯誤可能導致即使推理正确，答案也因為格式問題而被判定為錯誤。

好消息：能治

針對這一問題，他們提出了幾種應對之策：

首先，前面提到了 JSON 模式在大多數情況下表現最差，最後才是自然語言到格式（NL to Format）轉換。

那麼反過來說，解決格式限制的最佳方案就成了 NL to Format，即 LLMs 首先用自然語言回答問題，然後再将答案轉換為目标格式。這種方式允許推理與格式遵守分離，從而表現更佳。

此外，結構化輸出中的鍵順序對 LLMs 的回答方式有重要影響。

例如在使用 GPT-3.5 Turbo 時，100% 的 JSON-mode 響應錯誤地将 "answer" 鍵位于 "reasoning" 之前，這導致模型直接給出答案，而不是展示思考過程。

研究還表明，格式限制導致的解析錯誤不是性能差異的主要原因。

例如，在 LLaMA 3 8B 模型中，Last Letter 任務的 JSON 格式解析錯誤率僅為 0.15%，但與自然語言響應相比，性能差距達到了 38.15%。

而且可以通過糾正提示來減輕這些錯誤，例如對于 Claude-3-Haiku 模型，在 Last Letter 任務中，通過糾正步驟，JSON 和 YAML 格式的準确率分别提高了 +2.8% 和 +44.8%。

以上也意味着，在應用 LLMs 時，需要在易于解析的格式和保留固有推理能力之間找到平衡點。

最後，研究人員在論文中提醒了：

相比于正則表達式，LLMs 作為答案解析器能夠提供更加深入和準确的文本理解，不僅僅局限于表面的模式匹配，而是能夠真正理解答案的含義和上下文。

論文：

https://arxiv.org/abs/2408.02442

參考鏈接：

[ 1 ] https://x.com/fly51fly/status/1822268106041171983

[ 2 ] https://x.com/thomasahle/status/1822886782691885207