大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

LLM推理性能受输出格式影响,JSON最严重

2024-08-17 简体 HK SG TW

今天小编分享的科学经验:LLM推理性能受输出格式影响,JSON最严重,欢迎阅读。

输出格式不同,竟然还能影响大模型发挥?!

两种提示下让大语言模型(LLMs)解同一道数学题,问题如下:

Eliza 每周工作的前 40 小时,每小时的工资是 10 美元,加班费每小时 x1.2。如果 Eliza 这周工作了 45 小时,她这周的收入是多少?

思维链 prompt:" 按照以下格式提供输出,逐步推理:…回答:最终答案是… "。

格式限制 prompt:" 按照以下有效的 JSON 格式提供输出:…(具体 JSON 格式见图)"。

正确答案是460,可以看出,思维链(让模型一步步思考)奏效,格式限制(" 以 JSON 格式输出 ")却失败了!!

这是台湾大学和 Appier AI Research 新研究中的一幕,他们发现——

格式限制这玩意儿会降低 LLMs 的推理能力,且限制越严推理越差。(主打一个叛逆)

不过好消息是,能治。

他们发现,最佳解决方案是搞个 " 二次转换 "(倒爷是吧),即 LLMs 首先用自然语言回答问题,然后再将答案转换为目标格式。

在这个过程中,他们对比了 GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash 等不同模型在生成不同格式数据时的性能差异,结果又发现:

GPT 喜欢 YAML、Claude 喜欢 XML、Gemini/Gemma 喜欢 JSON。(主打各有所爱)

看完研究,有网友点出了它对平衡结构化生成和任务推理的意义:

格式限制会降低 LLMs 推理能力

上述研究已发表在 arXiv 上,论文主要揭示了,在格式限制下,LLMs 的推理能力显著下降,尤其是在 JSON 模式下。

一直以来,将 LLMs 纳入工业应用程式的一个主要障碍是它们缺乏对标准化输出格式的遵守。

一种常见解决方法是结构化生成,即通过格式限制让 LLMs 以 JSON 或 XML 等标准化格式提供输出。

不过话说回来,虽然有多种方式可以实现这种限制,但后续影响却无人研究。(限制是否影响模型性能呢 ?)

说干就干,研究人员采用3 种常见方法来评估不同格式限制对下游性能的影响:

JSON-mode:通过预定义的标记空间限制 LLMs 的输出

FRI:指导 LLMs 生成符合特定模式的标准化格式响应

NL-to-Format:两步过程,首先用自然语言回答问题,然后转换为目标格式

对了,还要加上自然语言(NL),它是最不受限的格式,允许模型以自然语言自由地回答问题。

评估对象是 GSM8K(包含自然语言环境中的数学问题)和 Last Letter Concatenation(最后一个字母连接任务)这两个需要精确匹配答案的数据集,以及 Shuffled Objects(洗牌对象追踪任务)。

他们发现,在这些涉及推理的任务中,更宽松的提示通常会得到更好的结果。

同时,JSON 模式在大多数情况下表现最差,其次是格式限制指令(FRI),然后是自然语言到格式(NL to Format)转换,以及自然语言(NL)提示。

研究还发现,不同的 LLMs 对不同的数据格式表现出不同的偏好。

例如,GPT 更喜欢 YAML 格式,Claude 更喜欢 XML 格式,而 Gemini/Gemma 则更倾向于 JSON 格式。

不过,在分类任务中,格式限制可能提高了准确性,因为它减少了可能的答案选择,从而降低了错误率。

他们进一步总结了格式限制会降低模型推理能力的原因,主要包括:

限制了模型生成必要中间推理步骤的能力。

强制的格式要求可能与模型自然生成答案的方式不兼容。

格式错误可能导致即使推理正确,答案也因为格式问题而被判定为错误。

好消息:能治

针对这一问题,他们提出了几种应对之策:

首先,前面提到了 JSON 模式在大多数情况下表现最差,最后才是自然语言到格式(NL to Format)转换。

那么反过来说,解决格式限制的最佳方案就成了 NL to Format,即 LLMs 首先用自然语言回答问题,然后再将答案转换为目标格式。这种方式允许推理与格式遵守分离,从而表现更佳。

此外,结构化输出中的键顺序对 LLMs 的回答方式有重要影响。

例如在使用 GPT-3.5 Turbo 时,100% 的 JSON-mode 响应错误地将 "answer" 键位于 "reasoning" 之前,这导致模型直接给出答案,而不是展示思考过程。

研究还表明,格式限制导致的解析错误不是性能差异的主要原因。

例如,在 LLaMA 3 8B 模型中,Last Letter 任务的 JSON 格式解析错误率仅为 0.15%,但与自然语言响应相比,性能差距达到了 38.15%。

而且可以通过纠正提示来减轻这些错误,例如对于 Claude-3-Haiku 模型,在 Last Letter 任务中,通过纠正步骤,JSON 和 YAML 格式的准确率分别提高了 +2.8% 和 +44.8%。

以上也意味着,在应用 LLMs 时,需要在易于解析的格式和保留固有推理能力之间找到平衡点。

最后,研究人员在论文中提醒了:

相比于正则表达式,LLMs 作为答案解析器能够提供更加深入和准确的文本理解,不仅仅局限于表面的模式匹配,而是能够真正理解答案的含义和上下文。

论文:

https://arxiv.org/abs/2408.02442

参考链接:

[ 1 ] https://x.com/fly51fly/status/1822268106041171983

[ 2 ] https://x.com/thomasahle/status/1822886782691885207

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們