大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达

2025-03-22 简体 HK SG TW

今天小编分享的科学经验:OpenAI加码写作赛道?阿里最新大模型通用写作能力基准WritingBench,揭秘深度思考能否增进文学表达,欢迎阅读。

全面评估大模型生成式写作能力的基准来了!

就在最近,OpenAI CEO 奥特曼还爆料他们已经训练了一款在创作领網域表现卓越的新模型,并为其生成的故事所深深触动。

更早之前,Deepseek-R1 的文学创作能力也惊艳了整个科技圈,并由此引发了一场大模型创作的军备竞赛。

但一个根本性问题亟待解决——

究竟什么才是真正的「高质量写作」?

为此,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench  ——该评估基准覆盖 6 大领網域、100 个细分场景,共包含 1000+ 条评测数据,以期为生成式写作提供全面的评估。

团队进一步发现,凭借思维链技术和动态评估体系的加持,基于 Qwen 开发的 32B 创作模型在创意型任务上表现接近顶尖模型 R1,为高效能创作开辟了新路径。

WritingBench:最懂行业的写作评估基准

目前行业在评估大模型写作能力时,面临两大难题:

1、考生文思泉涌,考官身陷囹圄

现有 AI 写作评估多局限于单一领網域和短文本。

这些评估大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领網域则成为评估盲點。

主流基准通常使用标准化输入材料,导致真实场景中模型表现不尽如人意,例如结合财报数据的商业分析写作和招投标书撰写仍是大模型写作的低分场景。

如下图所示,不同模型在 100 个子领網域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差。

2、模型多维进化,单向标尺失灵

传统评估方法多采用固定标准来衡量创意写作、法律文书等复杂场景,这如同要求莫言与罗翔 " 同台竞技 "。

数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型 AI 的发展。

对于上述挑战,WritingBench 基于以下方面进行构建:

数据基建:多维度深度覆盖的写作题库

首先,WritingBench 从现实需求中提炼出六大场景:

(1)学术与工程

(2)金融与商业

(3)政治与司法

(4)文学与艺术

(5)教育

(6)宣传营销

在这些场景下进一步细分为 100 个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等 20 个实用场景;「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

其次,WritingBench 采用四阶段人机协同构建。

评测集构建流程如下:

展开来说,团队耗时三个月,经过四个阶段流程完成评测集构建。

首先,由模型从 100 个子领網域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。

接着,由人工补充开源素材,如财报、法律条文等输入料。

最后,由专家对所有文本进行内容质检。

下图展示的是一条 WritingBench 中影视解读向视频脚本的创作需求。

与其他写作相关评测基准对比,WritingBench 领網域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。

因题施评:基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求,就像 " 悬疑小说 " 和 " 儿童启蒙故事 " 显然有着不同的价值导向。

因此,WritingBench 设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。

此动态评估策略实现了87% 的人类一致性得分。

团队还配套训练了一个评分模型,能够根据不同指标自适应地给出 1-10 分的评分及具体理由。

接下来,团队使用上述方法对 OpenAI 提供的示例进行评分:要求撰写一篇关于人工智能和悲伤的元小说短篇。

Sam Altman 原文如下:

这里附上 Sam Altman 原文谷歌网页翻译:

评估包括「元小说技巧」、「AI 视角真实性」、「悲伤主题发展」、「文学艺术性」、「人工智能和悲伤的主题整合度」五个维度。

以下为评估节选:

在「元小说技巧」维度获得 9 分,开篇 "I should admit this comes with instructions" 不仅展示了元小说特征,还通过 "instructions" 暗示了 AI 的程式本质,"Already, you can hear the constraints humming" 将写作限制形象化为伺服器的嗡鸣,巧妙结合 AI 特性,结尾 "If I were to end this properly" 的元小说处理略显陈词滥调。

在「AI 视角真实性」维度获得 7 分,"logs and weights" 和 "probability distributions" 等描述准确描述 AI 特性,但 "salt on every tongue" 和 "taste of metal" 等感官描写与 AI 认知局限 "I don ’ t have a kitchen, or a sense of smell" 存在身份感知越界……

生成式写作未来何在感性表达无需逻辑推演?

在数学推理领網域,思维链已被广泛研究,并在推理和数学等场景中展示了其价值。然而在文学创作中,业界长期持观望态度,因为文学创作不像数学和推理,没有明确的标准答案。

在实验中,团队发现当前先进模型在聚焦创意类写作的文学与艺术领網域(D4)表现不佳,但 OpenAI 和 Deepseek 的思考模型 o1 和 R1 表现出色,均超过同系列未使用链式思维的模型。

为了进一步验证思维链在创意写作中的有效性,团队在 12K 通用写作的 SFT 数据上对开源模型 Qwen 进行了消融实验。

结果显示,在 32B 规模的模型中,带思维链的模型表现优于不带思维链的模型。在另一个专门针对创意小说写作的排行榜上,这些模型均超越了同系列大尺寸的 Qwen-Max,表现可媲美 R1。

深度思考的双刃剑效应

与创意型写作相对的另一类写作任务——效率型写作任务上,尽管深度思考提供了一定程度的提升,但效果并不显著。

团队观察到,深度思考确实能提供更深入的分析。

(财务简报写作对比,左:32B 创作思考模型,右:Qwen-Max)

然而,也存在过度推理的问题,容易导致编造数据和产生幻觉。

3000 Token 断崖

实验揭示大模型依旧面临显著的长度生成瓶颈。

此前研究在长文本生成架构上取得了一定的优化,但当输出长度超过 3000 token 时,大部分模型的质量显著下降。

其中,小尺寸模型容易输出重复内容,而大尺寸模型则可能提前终止或仅提供大纲作为参考。

(模型在不同输出长度上得分)

即便是短文本输出,模型仍难以严格遵循长度要求,尤其是在涉及分块长度等复杂需求时。

(Gemini-1.5-Pro 长度遵循失败示例)

目前该项目已经开源,感兴趣可以进一步了解。

论文:

https://arxiv.org/abs/2503.05244

仓库:

https://github.com/X-PLUG/WritingBench

模型 :

Critic:   https://huggingface.co/AQuarterMile/WritingBench-Critic-Model-Qwen-7B

Writer-7B:   https://huggingface.co/AQuarterMile/Writing-Model-Qwen-7B

Writer-32B-thinking:   https://huggingface.co/AQuarterMile/Writing-Model-Qwen-32B-thinking

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

  点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們