大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了

2024-12-05 简体 HK SG TW

今天小编分享的科学经验:揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出,背后故事细节被Karpathy晒邮件公开了,欢迎阅读。

大模型的核心组件注意力机制,究竟如何诞生的?

可能已经有人知道,它并非2017 年 Transformer 开山论文《Attention is all you need》首创,而是来自 2014 年 Bengio 实验室的另一篇论文。

现在,这项研究背后更多细节被公开了!来自 Karpathy 与真正作者两年前的邮件往来,引起了很多讨论。

到现在已有整 10 年历史。

一作 Dzmitry Bahdanau,当时是 Bengio 实验室的一位实习生,在实习只剩 5 周时灵光一现提出了一个简化方案,相当于实现了对角注意力。

Pytorch 等经典代码中,正是把注意力称为 Bahdanau Attention,还保留着他贡献的痕迹。

Karpathy 之所以现在提起这段往事,是因为最近社区中流传着一些误解,认为 Transformer 作者受到科幻电影《降临》中外星人交流方式的启发。

真正 2014 年 Attention 机制的灵感,其实来自人类翻译文字过程中来回看材料的行为。

除了澄清这一点之外,这段真实故事中还有更多亮点,对今天的研究仍有很多启发。

2014 年的 Attention,与同期Alex Graves 论文 Neural Turing Machines,和Jason Weston 论文 Memory Networks有类似之处,但这些研究出发点和动机不同。

说明在技术积累的临界点上,不同研究者常会独立地提出相似的创新。

原本的名字 "RNNSearch" 不够直观,后来在 Yoshua Bengio 的建议下改为 " 注意力 ",更能抓住核心概念。

原来起个好名字,真的可以提升技术的传播和影响力。

有网友看过这个故事之后,感叹这封邮件 " 应该放在计算机科学博物馆 "。

给这些改变世界的发现几乎总是从实验开始的,而且没有人真正提前知道它们的结局。

以下为 Dzmitry Bahdanau 发给 Karpathy 的原始邮件全文翻译,邮件写于 2022 年。

10 年前,Attention 真正的诞生‍‍

嗨,Andrej。

很高兴为您讲述 8 年前发生的故事!

我在 Jakobs University(德国雅各布大学)跟随 Herbert Jaeger 完成了硕士一年级的学业后,来到 Yoshua(图灵奖得主 Yoshua Bengio)的实验室实习。

我向 Yoshua 表示我愿意从事任何工作,他便让我参与机器翻译项目,与 Kyunghyun Cho 及团队展开合作。

我对将一系列单词塞进向量的想法非常怀疑,但我也真的很想要一个博士学位的 offer,所以我卷起袖子,开始做我擅长的事情——编写代码、修复 Bug 等等。

在某个时候,我对团队正在进行的工作有了足够的了解,Yoshua 邀请我攻读博士学位。2014 年是个好时代,只需这些工作就足以让我读博了——美好的旧时光!

我很高兴,我觉得是时候享受乐趣并发挥创造力了。

于是我开始思考如何避免 Encoder-Decoder RNN 之间的信息瓶颈。

我的第一个想法是建立一个带有两个 " 游標 " 的模型:一个在源序列中移动,由 BiRNN 编码;另一个在目标序列中移动。游標轨迹将使用动态规划边际化。

Kyunghyun Cho 认为这相当于 Alex Graves 的 RNN Transducer 模型。之后,我可能也读了 Graves 的手写识别论文,但这种方法对于机器翻译来说似乎不太合适。

上述带有游標的方法在我实习的剩余 5 周内很难实现,所以我尝试了更简单的方法——两个游標同时同步移动,实际上相当于硬编码的对角注意力。

这种方法有点效果,但缺乏优雅。

所以有一天我有了新的想法,让 Decorder RNN 学会在源序列中搜索放置游標的位置。这在一定程度上受到了我中学英语学习中翻译练习的启发。

在翻译时,你的目光会在源序列和目标序列之间来回移动,我将软搜索表示为 softmax,然后对 BiRNN 状态进行加权平均。从第一次尝试就效果很好,我非常兴奋。

我将这个架构称为 RNNSearch,在 1 个 GPU 上运行。由于我们知道谷歌的 Ilya(OpenAI 前首席科学家 Ilya Sutskever)团队使用 8 个 GPU 的 LSTM 模型在某些方面领先于我们,所以我们赶紧在 ArXiV 上发表了一篇论文。

后来发现,这个名字并不好。更好的名字(注意力)是 Yoshua 在最后的一次修改中添加到结论中的。

直观地说,这在解码器中实现了一种注意力机制,解码器决定源语句的哪些部分需要关注。通过让解码器具有注意力机制,我们减轻了编码器将源语句中的所有信息编码为固定长度向量的负担。通过这种新方法,信息可以分布在整个注释序列中,解码器可以相应地有选择地检索。

一个半月后,我们看到了 Alex Graves 的论文。确实是完全相同的想法,尽管他的动机完全不同。

在我们这边,发明新算法是需求驱动的。我猜在他那边,是连接神经学派和符号学派的雄心?Jason Weston 团队的 Memory Networks 论文也有类似的机制。

我没有预见到注意力可以在更低的层次上使用,作为表示学习的核心算法。

但当我看到 Transformer 论文时,我立即向实验室的同事宣布:RNN 已死。

回到您最初的问题:在蒙特利尔 Yoshua 的实验室中 " 可微且数据依赖的加权平均 " 的发明与神经图灵机、Memory Networks 以及 90 年代(甚至 70 年代;但我无法提供链接)的一些相关认知科学论文无关。

这是 Yoshua 推动实验室追求雄心壮志的领导成果,Kyunghyun Cho 在管理由初级博士生和实习生组成的大型机器翻译项目方面的出色技能,以及我自己多年来在编程竞赛中磨练出的创造力和编程技能的结果。

即使我自己、Alex Graves 和这个故事中的其他角色当时没有从事深度学习工作,离这个想法出现也不会太远了。

注意力只是深度学习中实现灵活空间连接的自然方式,这几乎是一个显而易见的想法,一直在等待 GPU 足够快,让人们有动力并认真对待深度学习研究。

自从我意识到这一点,我对 AI 的大志向就是启动像机器翻译那样令人惊叹的应用项目。

良好的研发工作可以为基础技术的进步做出更多贡献,而不是我们通常认为 " 真正的 " 人工智能研究的所有花哨的理论。

就酱!非常好奇听到更多关于您的 AI 教育项目的消息(我从 Harm de Vries 那里听到了一些传闻)。

干杯,

Dima

One More Thing

Karpathy 感叹,有点惊讶这篇真正的注意力起源论文没有获得足够多的

自从 Attention is all you need 一飞冲天之后,大家意识到给论文起一个好名字对技术传播的影响,后面的论文标题就放飞了。

除了扎堆模仿 xx is all you need 之外,最近甚至还出现了 Taylor Unswift。

讲的是把模型权重转换成泰勒级数的参数,来保护已发布模型的所有权并防止被滥用。

就,emmm ……

提到的论文:

Neural Machine Translation by Jointly Learning to Align and Translate

https://arxiv.org/abs/1409.0473  

Attention is All You Need  

https://arxiv.org/abs/1706.03762

Neural Turing Machines  

https://arxiv.org/abs/1410.5401  

Generating Sequences With Recurrent Neural Networks  

https://arxiv.org/abs/1308.0850  

Memory Networks  

https://arxiv.org/abs/1410.3916  

Sequence to Sequence Learning with Neural Networks  

https://arxiv.org/abs/1409.3215

Taylor Unswift:

https://arxiv.org/abs/2410.05331

参考链接:

[ 1 ] https://x.com/karpathy/status/1864028921664319735

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們