大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式

2024-04-18 简体 HK SG TW

今天小编分享的科学经验:Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式,欢迎阅读。

纵观生成式 AI 领網域中的两个主导者:自回归和扩散模型。

一个专攻文本等离散数据,一个长于影像等连续数据。

如果,我们让后者来挑战前者的主场,它能行吗?

斯坦福博士的最新研究,就搞了这么一个扩散模型 VS 自回归模的同台 PK。

结果:

挑战成功!(下面为生成示意图,最后得到的文本是 "Hello world,I   am a language   diffusion   model,named   SEDD")

并且他们的扩散模型在困惑度和质量上已率先超越自回归的 GPT-2。

赶紧来瞧瞧。

扩散模型挑战离散数据

用自回归来处理离散文本数据,即根据之前的 token 来预测下一个 token,这可能是目前我们能想象到的最简单可行的方法。

为什么这么说?

作者在这里用GAN举了个例子:

对于影像生成,GAN 首先根据随机噪声生成影像,然后使用判别器来 " 惩罚 " 偏差,因此梯度信息可以反向传播到生成器。

但如果我们假设用 GAN 来生成文本,就行不通了。

因为尽管我们可以定义同样原理的生成器和判别器,但文本的离散性质使得更新生成器非常难。

(影像是连续的,因此可以通过反向传播来计算梯度,但文本是一堆无法区分的离散值,计算梯度信号相当繁琐,基本只能粗略估计)

所以说,文本建模领網域基本成了自回归的天下(如 transformer 的发扬光大就是基于自回归模型)。

不过,这个架构也有根本性的缺陷:

最有名的 " 批评 " 来自 Lecun,他就认为自回归 transformer" 注定要失败 ",因为生成会 " 偏离 " 数据分布并导致模型在采样过程中发散。

除此之外,自回归架构的采样也具有高度迭代性,这对为并行计算而高度优化的 GPU 来说也不够 match。

最后,由于这类架构的模型都是按照从左往右地完成任务,因此一次执行多个控制任务也很困难(例如补充给定了前缀和后缀的文本)。

正是这些缺点促使作者开始构思另一种概率模型,因此有了本文的主角:

分数熵离散扩散模型(SEDD,Score Entropy Discrete Diffusion)。

简单来说,为了将扩散模型扩展到离散空间,就必须将 " 分数函数 "(也就是对数概率的梯度)概念推广到离散空间。

幸运的是,有一种替代方案可以呈现具体分数,即概率的局部比率。

如下图所示,左边为分数函数,它直观地 " 指向 " 连续空间中的较高密度区網域,具体分数(右)将其推广到离散空间。

这些具体的比率(分数)可以通过得分熵(score entropy)损失函数来学习,从而实现离散扩散模型的快速、可扩展训练。

在这之中,由于作者只知道可以使用得分熵从数据中学习具体得分(对应于学习概率模型),但仍然不知道如何生成样本。

因此还借用了扩散模型的核心思想,并使用学习到的具体分数将随机值迭代地去噪为数据点。

为此,他们还定义了向离散文本样本中 " 添加噪声 " 的含义:

对于连续空间,这是通过添加高斯噪声自然产生的,但在离散空间中,则是被迫直接在不同元素之间 " 跳跃 "。

而最终,他们的 SEDD 模型通过学习将样本不断迭代去噪为文本,完成从纯随机输入生成文本的任务。

超越 GPT-2

总的来看,与自回归模型相比,该扩散模型可以在生成过程中利用完整的全局上下文,从而获得更好的整体生成效果。

对比起来,自回归模型特别是像 GPT-2 这样的会发生 " 漂移 " 现象,从而破坏整体性能的稳定性。

并且即使在较小的模型规模下,SEDD 也能始终生成高质量的文本(绿框,读者很通顺),而 GPT-2 就比较困难(红框,一眼看上去就很多错误)。

具体测试中,SEDD 在困惑度指标上表现出了很强的竞争力:

此外,作者还发现:

使用更少的采样步骤,SEDD 照样在控制生成质量上的表现也比 GPT-2 要好。

最后,团队以完全零样本的方式从任意位置提示 SEDD 后发现:

对于标准(从左到右)和非标准(填充)提示方法,SEDD 都可以与最好的 GPT-2 解码方法一较高下。

如下图所示:

提示标记以蓝色表示,不管它在前面中间还是结尾,SEDD 都能够生成有意义的文本。

Pika 创始人是作者之一

本研究一共 3 位作者:

一作为斯坦福计算机专业博士生 Aaron Lou,康奈尔本科毕业。

二作也是该校博士生 Chenlin Meng。

她的名字不算陌生,Pika 就是她(下图右)和 " 学妹 " 郭文景一起创办的。(Meng 2020 年入学斯坦福,郭 2021 年入学)

看起来,一边创业的她也一边兼顾着学业。

最后,通讯作者为一二作的导师 Stefano Ermon,他是斯坦福计算机科学系副教授。

论文地址:

https://arxiv.org/abs/2310.16834

参考链接:

https://aaronlou.com/blog/2024/discrete-diffusion/

https://twitter.com/aaron_lou/status/1763242384958386306?s=20

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們