大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

LLM推理性能受輸出格式影響,JSON最嚴重

2024-08-17 简体 HK SG TW

今天小編分享的科學經驗:LLM推理性能受輸出格式影響,JSON最嚴重,歡迎閱讀。

輸出格式不同,竟然還能影響大模型發揮?!

兩種提示下讓大語言模型(LLMs)解同一道數學題,問題如下:

Eliza 每周工作的前 40 小時,每小時的工資是 10 美元,加班費每小時 x1.2。如果 Eliza 這周工作了 45 小時,她這周的收入是多少?

思維鏈 prompt:" 按照以下格式提供輸出,逐步推理:…回答:最終答案是… "。

格式限制 prompt:" 按照以下有效的 JSON 格式提供輸出:…(具體 JSON 格式見圖)"。

正确答案是460,可以看出,思維鏈(讓模型一步步思考)奏效,格式限制(" 以 JSON 格式輸出 ")卻失敗了!!

這是台灣大學和 Appier AI Research 新研究中的一幕,他們發現——

格式限制這玩意兒會降低 LLMs 的推理能力,且限制越嚴推理越差。(主打一個叛逆)

不過好消息是,能治。

他們發現,最佳解決方案是搞個 " 二次轉換 "(倒爺是吧),即 LLMs 首先用自然語言回答問題,然後再将答案轉換為目标格式。

在這個過程中,他們對比了 GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash 等不同模型在生成不同格式數據時的性能差異,結果又發現:

GPT 喜歡 YAML、Claude 喜歡 XML、Gemini/Gemma 喜歡 JSON。(主打各有所愛)

看完研究,有網友點出了它對平衡結構化生成和任務推理的意義:

格式限制會降低 LLMs 推理能力

上述研究已發表在 arXiv 上,論文主要揭示了,在格式限制下,LLMs 的推理能力顯著下降,尤其是在 JSON 模式下。

一直以來,将 LLMs 納入工業應用程式的一個主要障礙是它們缺乏對标準化輸出格式的遵守。

一種常見解決方法是結構化生成,即通過格式限制讓 LLMs 以 JSON 或 XML 等标準化格式提供輸出。

不過話說回來,雖然有多種方式可以實現這種限制,但後續影響卻無人研究。(限制是否影響模型性能呢 ?)

說幹就幹,研究人員采用3 種常見方法來評估不同格式限制對下遊性能的影響:

JSON-mode:通過預定義的标記空間限制 LLMs 的輸出

FRI:指導 LLMs 生成符合特定模式的标準化格式響應

NL-to-Format:兩步過程,首先用自然語言回答問題,然後轉換為目标格式

對了,還要加上自然語言(NL),它是最不受限的格式,允許模型以自然語言自由地回答問題。

評估對象是 GSM8K(包含自然語言環境中的數學問題)和 Last Letter Concatenation(最後一個字母連接任務)這兩個需要精确匹配答案的數據集,以及 Shuffled Objects(洗牌對象追蹤任務)。

他們發現,在這些涉及推理的任務中,更寬松的提示通常會得到更好的結果。

同時,JSON 模式在大多數情況下表現最差,其次是格式限制指令(FRI),然後是自然語言到格式(NL to Format)轉換,以及自然語言(NL)提示。

研究還發現,不同的 LLMs 對不同的數據格式表現出不同的偏好。

例如,GPT 更喜歡 YAML 格式,Claude 更喜歡 XML 格式,而 Gemini/Gemma 則更傾向于 JSON 格式。

不過,在分類任務中,格式限制可能提高了準确性,因為它減少了可能的答案選擇,從而降低了錯誤率。

他們進一步總結了格式限制會降低模型推理能力的原因,主要包括:

限制了模型生成必要中間推理步驟的能力。

強制的格式要求可能與模型自然生成答案的方式不兼容。

格式錯誤可能導致即使推理正确,答案也因為格式問題而被判定為錯誤。

好消息:能治

針對這一問題,他們提出了幾種應對之策:

首先,前面提到了 JSON 模式在大多數情況下表現最差,最後才是自然語言到格式(NL to Format)轉換。

那麼反過來說,解決格式限制的最佳方案就成了 NL to Format,即 LLMs 首先用自然語言回答問題,然後再将答案轉換為目标格式。這種方式允許推理與格式遵守分離,從而表現更佳。

此外,結構化輸出中的鍵順序對 LLMs 的回答方式有重要影響。

例如在使用 GPT-3.5 Turbo 時,100% 的 JSON-mode 響應錯誤地将 "answer" 鍵位于 "reasoning" 之前,這導致模型直接給出答案,而不是展示思考過程。

研究還表明,格式限制導致的解析錯誤不是性能差異的主要原因。

例如,在 LLaMA 3 8B 模型中,Last Letter 任務的 JSON 格式解析錯誤率僅為 0.15%,但與自然語言響應相比,性能差距達到了 38.15%。

而且可以通過糾正提示來減輕這些錯誤,例如對于 Claude-3-Haiku 模型,在 Last Letter 任務中,通過糾正步驟,JSON 和 YAML 格式的準确率分别提高了 +2.8% 和 +44.8%。

以上也意味着,在應用 LLMs 時,需要在易于解析的格式和保留固有推理能力之間找到平衡點。

最後,研究人員在論文中提醒了:

相比于正則表達式,LLMs 作為答案解析器能夠提供更加深入和準确的文本理解,不僅僅局限于表面的模式匹配,而是能夠真正理解答案的含義和上下文。

論文:

https://arxiv.org/abs/2408.02442

參考鏈接:

[ 1 ] https://x.com/fly51fly/status/1822268106041171983

[ 2 ] https://x.com/thomasahle/status/1822886782691885207

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們