一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明 - 大酷樂

今天小编分享的科学经验：一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明，欢迎阅读。

引用超 85000 次的经典论文GAN 获 NeurIPS2024 时间检验奖后，它的起源和背后故事也被抛了出来。

要从Yoshua Bengio 实验室的一次头腦风暴说起。

Bengio 召集实验室成员，提出了一个富有挑战性的设想：

训练一个确定性的生成网络 g，该网络仅在输入 z 中包含随机噪声。这个网络的输出 x=g ( z ) 应该是从某个分布 p ( x ) 中抽取的样本。输出可以是任何形式：影像、音频、文本。

正当众人皆无头绪之时，一个在当时看似滑稽且几乎无意义的想法揭开了 GAN 的序幕：

如果能有另一个神经网络充当判别器，会怎样？

作者之一 Sherjil Ozair，一边讲述着这段经历，一边还透露曾有 DeepMind 研究员向他开玩笑，说他可能已经完成了最伟大的工作，可以直接退休了。

但他认为事实并非如此。

CNN 感觉像是最后的发明，但并不是。

GAN 感觉像是最后的发明，但也不是。

LSTM、ResNet、DQN、AlphaGo、AlphaZero、MuZero 都并非终结。

Transformer 和大语言模型，亦不是最后的发明。

这项出自 Yoshua Bengio、lan Goodfellow 等一众大佬，引用超过 85000 次，被 NeurIPS2024 官方评价为 " 生成建模的基础部分之一，在过去 10 年中激发了许多研究进展 " 的研究。

究竟是如何炼成的？

Sherjil Ozair 讲述背后故事

以下是 Sherjil Ozair 的完整自述：

非常高兴听到 GAN（生成对抗网络）在 2024 年 NeurIPS 大会上获得时间检验奖。

NeurIPS 时间检验奖是授予那些在十年时间里经受住考验的论文。

" 我 " 花了一些时间回顾 GAN 是如何产生的以及过去十年中人工智能的发展。

2012 年初，当 " 我 " 还是印度理工学院德里分校的大學生时，" 我 " 偶然发现了 Geoffrey Hinton 在 Coursera 上的一门深度学习课程。

深度学习当时是机器学习中一个边缘化且小众的分支领網域，它承诺能实现更多的 " 端到端 " 学习，并且更接近人类大腦的工作方式。

这门课非常精彩。它不仅很好地解释了深度学习的原理，还充满了 Hinton 特有的英式幽默和非传统思维。

比如，他建议 " 我们 " 这样可视化高维空间：

要处理 14 维空间中的超平面，想象一个 3 维空间，然后大声对自己说 "14"，每个人都是这么做。

但请记住，从 13 维到 14 维的转变，其增加的复杂性与从 2 维到 3 维的转变一样大。

出于好奇兴奋地想学习更多知识，" 我 " 开始仔细研究所有能找到的资料。

当时主要是一些杰出研究者发表的学术论文，比如Yoshua Bengio，其中很多都保存在他实验室的网站上。

2012 年，Quora 非常火爆，Yoshua 经常在 Quora 上回答有关深度学习的问题。

" 我 " 真诚地感谢他帮助像 " 我 " 这样的大學生理解深度学习。" 我 " 通过 Quora 联系他，表达谢意。

令 " 我 " 非常惊喜的是，" 我 " 不仅收到了回复，还收到了一份他实验室的实习邀请。

这是一次命运的相遇，而当时的 " 我 " 对这次交流和即将展开的旅程的重要性和影响力还只有一点点模糊的认识。

" 我 " 由衷地感激 Yoshua Bengio 为这个世界和为 " 我 " 所做的一切。

" 我 " 通过了面试获得了实习机会，2014 年夏天，将在 Yoshua 的 LISA 实验室实习。

本想 2013 年就实习的，但印度理工学院的制度要求学生必须在第三学年的暑假在他们认可的公司实习。

2014 年 5 月，" 我 " 飞抵蒙特利尔，来到了实验室。

刚见到 Yoshua，他就立马把 " 我 " 拉进了一个房间，里面坐着的还有 Ian Goodfellow 和 Aaron Courville。

Yoshua 继续解释着他最近一直在思考的一个新想法：

设想构建一个确定性的生成网络 g，只在输入 z 中包含随机噪声。这个网络的输出 x=g ( z ) 应该是来自某个分布 p ( x ) 的样本，可以是任何形式：影像、音频或文本。

他强调这就是 " 我们 " 需要训练的目标。

但怎么训练呢？在这种 " 隐式 " 网络中，概率 p ( x ) 并没有明确表达。

他提出应该对生成器的输出（生成分布）和某个样本数据集（可以是影像、音频等）进行 " 双样本分布匹配 "。

但如何进行这种分布匹配仍然不明确。

作为一个年轻天真的大學生，" 我 " 提出了矩匹配，但 " 我们 " 都知道矩匹配可能无法应对高维数据。小组里也讨论了其他想法，也都感觉不够有说服力。

不过，Yoshua 对训练一个确定性的、消耗噪声并产生样本的生成神经网络的愿景和热情令人印象深刻且富有启发性。

团队决定私下继续思考这个问题。

在 Les Trois Brasseurs 餐厅的一次实验室聚餐中，Ian Goodfellow 突然想到了一个在当时看似滑稽且几乎毫无意义的主意：

如果让另一个神经网络来充当判别器会怎样？

这是一个开拓前沿的时刻。

当时，神经网络的训练还相当 " 原始 "。通常做法是：

建立一个主神经网络，输入数据，得到一个预测结果，对其应用一个数学损失函数，然后使用梯度下降来优化这个网络。

而 Ian 的想法则把损失函数本身设想成一个可学习的神经网络。不是优化一个固定的数学损失，而是用另一个 " 判别器 " 神经网络来提供损失值和梯度，用于训练 " 生成器 " 神经网络。

这个想法自然招致质疑。整个系统会不会崩溃到退化输出？判别器从何而来？处处都是先有鸡还是先有蛋的困境。

但 Ian 对此也早有腹案。他提出让判别器和生成器在一个零和博弈中对抗：

生成器试图产生与真实数据 " 难以区分 " 的输出，而判别器则要设法分辨看到的是生成样本还是真实样本。

也许这能行？第二天，实验室所有成员都收到了一封邮件。

在一个充斥着编程和运行实验的长夜，Ian 成功让第一个生成对抗网络运行起来。

这些是在 MNIST 数据集上产生的第一批样本。

当时 " 我 " 正在研究类似的东西，用非神经网络判别器进行训练，但效果远不及预期。

于是 " 我 " 决定转而帮助 Ian 研究 GAN。距离 NeurIPS 2014 的提交截止日期只有一周了。" 我们 " 决定全力以赴，应该能赶上提交一篇论文。

在接下来的几天里，" 我们 " 設定了评估方法来与现有的生成模型进行比较，尝试了不同的架构、噪声函数和博弈公式。

Jean、Yoshua 和 " 我 " 发现 GAN 博弈是收敛的，并且在平衡状态下最小化了 Jensen-Shannon 散度。

" 我们 " 坚持了下来，在最后一周完成了所有工作，并提交了一篇论文到 NeurIPS。

GAN 被接收为海报展示论文（posted presentation）。

" 我 " 记得虽然大家都很兴奋，但也都知道 GAN 的训练动态非常不稳定。大部分合作者开始研究其它模型架构，试图解决在 GAN 中发现的问题。

GAN 在 12 月份进行了展示，却基本上没有引起注意。

几个月后，2015 年 8 月，Alec Radford开始发布他一直在研究的卷积 GAN 的样本。

没错，就是那个几乎参与了 OpenAI 所有重大突破的 Alec Radford。2015 年，他正在研究卷积神经网络、批量归一化和 GAN。

" 我 " 无法完全展现 DCGAN 之后 GAN 引发的巨大关注。

但 " 我 " 想强调的是，GAN 的演进过程被恰如其分地用来象征 AI 整体的进步。

这张展示影像生成惊人发展的图片已经过时了，因为现在的影像生成模型已经能生成百万像素级的影像，甚至可以生成视频。

至于 " 我 " 个人的故事，GAN 作为 " 我 " 的第一篇学术论文既是福也是祸。一位 DeepMind 的研究员曾开玩笑说，" 我 " 可能已经可以退休了，因为 " 我 " 可能已经完成了自己最伟大的工作。

但是 " 认为历史已经终结 " 可能是 AI 领網域最大的错误。" 我们 " 总是倾向于认为 " 就是这个了，这是最后的发明 "。但事实从来都不是这样。

CNN 曾经感觉像是最后的发明，但并不是。

GAN 曾经感觉像是最后的发明，但并不是。

LSTM 曾经感觉像是最后的发明，但并不是。

ResNets、DQN、AlphaGo、AlphaZero、MuZero 都不是最后的答案。

回过头来看，这些想法总是显得很滑稽。但是想想现在，Transformer 和大语言模型被认为是最后的发明。

但它们也不是。

" 我 " 最近离开了前沿 AI 实验室的圈子，开始创办一家公司来构建一些真正令人惊叹的东西。" 我 " 很快会分享更多相关信息。敬请关注。

感谢 NeurIPS Conference 授予 GAN 时间检验奖，也感谢这些对抗者们：Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu、David Warde-Farley、Aaron Courville、Yoshua Bengio

也为 Seq2Seq 论文作者们表示祝贺。

Ian Goodfellow 开麦

Mehdi Mirza 将这段经历分享出来后吸引到不少网友围观，网友们看得津津有味：

没想到论文一周就写出来了。

好一段精彩的历史回顾！在 "Attention is all you need" 之前，GAN 才是主流。

GAN 论文一作 Ian Goodfellow 也激情开麦：

如果你是那个时代的亲历者，值得一读以怀旧；如果你不是，也能通过这些文字一窥当年的情形。

关于 GAN 论文的更多细节，可以点击这里查看：。

参考链接：https://x.com/sherjilozair/status/1864013580624113817

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>