AI顶会ICLR，今年只有一家中国大模型公司受邀演讲

今天小编分享的科学经验：AI顶会ICLR，今年只有一家中国大模型公司受邀演讲，欢迎阅读。

机器学习三大顶会之一的ICLR 2024，正在维也纳如火如荼地举行。

虽然首个时间检验奖、杰出论文奖等 " 重头戏 " 已经陆续颁布，但在其它环节中，我们却发现了一件更有意思的事情。

同样是作为 ICLR 重要组成部分的特邀演讲（Invited Talk），每年都会邀请在机器学习领網域有突出贡献和影响力的专家学者进行演讲。

而今年，中国只有一位！

并且仅从他的演讲主题The ChatGLM ’ s Road to AGI中，我们就能挖到更多的线索——

ChatGLM，正是由清华系初创智谱 AI所推出的千亿参数大语言模型。

那么被 ICLR 官方唯一 " 翻牌 " 的智谱 AI 团队，又在长达 1 个小时的特邀演讲中说了些什么？

我们继续往下看。

唯一受邀的中国大模型团队

在 " 大模型之战 " 开启以来，智谱 AI 的 ChatGLM 不夸张地说，是一直处于国内第一梯队的玩家之一。

事实上，智谱 AI 从 2019 年就已经入局 LLM 的研究；从目前的发展来看，智谱 AI 与 OpenAI 在 AIGC 的各个模态上均已呈现出生态对标之势：

ChatGPT vs ChatGLM

DALL · E vs CogView

Codex vs CodeGeex

WebGPT vs WebGLM

GPT-4V vs GLM-4V

虽然生态对标得很紧密，但从技术路线上来看，智谱的 GLM 与 GPT 是截然不同的。

当下基于 Transformer 架构的模型大致可以分为三类：

仅编码器架构（Encoder-only）、仅解码器架构（Decoder-only）、编码器 - 解码器架构（Encoder-Decoder）。

GPT 是属于 " 仅编码器架构 " 的玩家，而 GLM 则是借鉴 " 编码器 - 解码器架构 " 的思路去发展；因此也有一番独树一帜的味道。

而作为此次唯一被 ICLR 邀请做演讲的中国大模型公司，智谱 AI 团队在现场先分享了自己是如何从 ChatGLM 一步步走向 GLM-4V，即从 LLM 迈向 VLM。

我们可以从下面这张发展时间线中，先有一个整体脉络上的感知。

具体到技术上的实现，比较关键的节点便是CogVLM的提出，主打让大模型带上视觉。

CogVLM 模型主要包含四个组件，分别是 ViT 编码器、MLP 适配器、大型预训练语言模型和视觉专家模块。

这个方法可以说是改变了视觉语言模型的训练范式，从浅层对齐转向深度融合。

值得一提的是，CogVLM 还被 Stable Diffufion 3 用来做了影像标注。

基于此，智谱 AI 团队在本次特邀演讲环节中，更多地介绍并亮出了近期的前沿成果。

例如CogView3，是一个更快、更精细的文生图模型。

其创新之处便是提出了一个级联框架，是第一个在文本到影像生成领網域实现级联扩散的模型。

从实验结果来看，CogView3 在人类评估中比当前最先进的开源文本到影像扩散模型 SDXL 高出 77.0%，同时只需要大约 SDXL 一半的推理时间。

CogView3 的蒸馏变体在性能相当的情况下，只需 SDXL 的 1/10 的推理时间。

同样是基于 CogVLM，智谱 AI 所做的另一项研究CogAgent，则是一款具有视觉 Agent 能力的大模型。

CogAgent-18B 拥有 110 亿的视觉参数和 70 亿的语言参数 , 支持 1120*1120 分辨率的影像理解。在 CogVLM 的能力之上，它进一步拥有了 GUI 影像 Agent 的能力。

据了解，CogAgent-18B 已经在 9 个经典的跨模态基准测试中实现了最先进的通用性能；并且在包括 AITW 和 Mind2Web 在内的 GUI 操作数据集上显著超越了现有的模型。

除此之外，智谱 AI 团队还提出：AI 大模型的智能涌现，关键在于 Loss，而并非模型参数。

为此，团队提出了Pre-training Loss作为语言模型 " 涌现能力 " 的指标，训练了 30 多个不同模型参数和数据规模的语言模型，并评估了他们在 12 个英文和中文数据集上的表现：

Pre-training Loss 与下游任务性能呈负相关，即预训练损失越低，下游任务性能越好。这一结论适用于不同参数尺寸的语言模型，不受模型大小、训练数据量的影响。

对于一些下游任务，当 Pre-training Loss 低于某个阈值时，性能才会超过随机猜测水平，呈现出 " 涌现能力 "。这些任务的性能阈值大致相同，约在 2.2 左右。

即使使用连续指标评估，仍观察到 " 涌现能力 " 的存在。这表明涌现能力并非由非线性或离散指标导致。

再如针对 LLM 解决数学问题，提出了 Self-Critique 的迭代训练方法，通过自我反馈机制，帮助 LLM 同时提升语言和数学的能力。

对于 ChatGLM 通向 AGI 的后续计划，智谱 AI 在本次特邀演讲中也亮出了自己的 " 三步走 "。

首先是 GLM-4 的后续更新版本，即 GLM-4.5。

据了解，新更新的模型将基于超级认知 SuperIntelligence 和超级对齐 SuperAlignment 技术，同时在原生多模态领網域和 AI 安全领網域有长足进步。

团队表示：

通向通用人工智能之路，文本是最关键的基础。

但下一步则应该把文本、影像、视频、音频等多种模态混合在一起训练，变成一个真正原生的多模态模型。

其次，为了解决更加复杂的问题，团队将引入 GLM-OS 的概念。

GLM-OS 是指以大模型为中心的通用计算系统，具体实现方法如下：

基于已有的 All-Tools 能力，再加上内存记忆 memory 和自我反馈 self-reflection 能力，GLM-OS 有望成功模仿人类的 PDCA 机制，即 Plan-Do-Check-Act 循环。

首先做出计划，然后试一试形成反馈，调整规划然后再行动以期达到更好的效果。大模型依靠 PDCA 循环机制形成自我反馈和自我提升——恰如人类自己所做的一样。

最后，是 GLM-zero。

这项技术其实智谱 AI 从 2019 年以来便一直在钻研，主要是研究人类的 " 无意识 " 学习机制：

当人在睡觉的时候，大腦依然在无意识地学习。

" 无意识 " 学习机制是人类认知能力的重要组成部分，包括自我学习 self-instruct、自我反思 self-reflection 和自我批评 self-critics。

团队认为，人腦中存在着反馈 feedback 和决策 decision-making 两个系统，分别对应着 LLM 大模型和 Memory 内存记忆两部分，GLM-zero 的相关研究将进一步拓展人类对意识、知识、学习行为的理解。

而这也是 GLM 大模型团队第一次向外界公开这一技术趋势。

当然，除了这场特邀演讲之外，回顾本届 ICLR 其它亮点，可以说大模型着实是顶流中的顶流。

ICLR 2024，大模型赢麻了

首先是斩获本届 ICLR 颁发的第一个时间检验奖（Test of Time Award）的论文，可以说是经典中的经典——变分自编码器（VAE）。

正是这篇 11 年前的论文，给后续包括扩散模型在内的生成模型带来重要思想启发，也才有了现如今大家所熟知的 DALL · E 3、Stable Diffusion 等等。

也正因如此，在奖项公布之际便得到了众多网友的认可，纷纷表示 "Well deserved"。

论文一作Diederik Kingma现任 DeepMind 研究科学家，也曾是 OpenAI 创始成员、算法负责人，还是 Adam 优化器发明者。

VAE 采用了一个关键策略：使用一个较简单的分布（如高斯分布）来近似复杂的真实后验分布。模型的训练通过最大化一个称为证据下界（ELBO）的量来实现。

这种方法可以被看作是在影像重建的同时，对潜在变量的分布施加了一种 " 规范化 " 约束。

与传统自编码器相比，VAE 所学习的潜在表示通常具有更强的解释性和更好的泛化能力。

在论文的实验部分，作者展示了 VAE 在 MNIST 数据集上生成手写数字影像的能力。

ICLR 2024 的首个时间检验奖还設定了亚军（Runner Up）奖项。

同样也是非常经典的一项研究，作者包括 OpenAI 首席科学家的 Ilya、GAN 的发明者 Ian Goodfellow。

这项研究名为Intriguing properties of neural networks，官方对其的评价是：

研究强调了神经网络容易受到输入的微小变化的影响。

这个想法催生了对抗性攻击（试图愚弄神经网络）和对抗性防御（训练神经网络不被愚弄）领網域。

除了时间检验奖之外，每年的杰出论文奖（Outstanding Paper Awards）也是必看点之一。

本届 ICLR 共有五篇论文荣登杰出论文奖。

第一篇：

Generalization in diffusion models arises from geometry-adaptive harmonic representations

这篇来自纽约大学、法兰西学院的研究，从实验和理论研究了扩散模型中的记忆和泛化特性。作者根据经验研究了影像生成模型何时从记忆输入转换到泛化机制，并通过 " 几何自适应谐波表征 " 与谐波分析的思想建立联系，进一步从建筑归纳偏差的角度解释了这一现象。

第二篇：

Learning Interactive Real-World Simulators

研究机构来自 UC 伯克利、Google DeepMind、MIT、阿尔伯塔大学。汇集多个来源的数据来训练机器人基础模型是一个长期的宏伟目标。这项名为 "UniSim " 的工作使用基于视觉感知和控制文字描述的统一界面来聚合数据，并利用视觉和语言领網域的最新发展，从数据中训练机器人模拟器。

第三篇：

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

来自特拉维夫大学、IBM 的研究深入探讨了最近提出的状态空间模型和 Transformer 架构对长期顺序依赖关系的建模能力。作者发现从头开始训练 Transformer 模型会导致对其性能的低估，并证明通过预训练和微调設定可以获得巨大的收益。

第四篇：

Protein Discovery with Discrete Walk-Jump Sampling

基因泰克、纽约大学的研究解决了基于序列的抗体设计问题，这是蛋白质序列生成模型的一个重要应用。作者引入了一种创新而有效的新建模方法，专门用于处理离散蛋白质序列数据的问题。

第五篇：

Vision Transformers Need Registers

来自 Meta 等机构的研究，识别了 vision transformer 网络特征图中的伪影，其特点是低信息量背景区網域中的高规范 Tokens。作者对出现这种情况的原因提出了关键假设，利用额外的 register tokens 来解决这些伪影问题，从而提高模型在各种任务中的性能。

而在五篇杰出论文奖中，与大模型相关的研究就占了四篇，可以说是赢麻了。

除此之外，还有 11 篇论文获得了获得荣誉提名（Honorable mentions），其中三篇论文是全华人阵容。

整体来看，本届会议共收到了 7262 篇提交论文，接收 2260 篇，整体接收率约为 31%。此外 Spotlights 论文比例为 5%，Oral 论文比例为 1.2%。

One More Thing

ICLR 的创立者之一Yann LeCun（另一位是 Yoshua Bengio），在会议期间的 " 出镜率 " 可以说是比较高了，频频出现在网友的照片中。

而他本人也开心地分享了自己的一张自拍合影：

不过也有网友指出：" 拍得不错，就是可怜手机后边的兄弟了。"

以及会场的展厅也是有点意思：

嗯，是有种全球大模型玩家线下 battle 的既视感了。

时间检验奖论文地址：

[ 1 ] https://arxiv.org/abs/1312.6114

[ 2 ] https://arxiv.org/abs/1312.6199

杰出论文奖论文地址：

[ 1 ] https://openreview.net/forum?id=ANvmVS2Yr0

[ 2 ] https://openreview.net/forum?id=sFyTZEqmUY

[ 3 ] https://openreview.net/forum?id=PdaPky8MUn

[ 4 ] https://openreview.net/forum?id=zMPHKOmQNb

[ 5 ] https://openreview.net/forum?id=2dnO3LLiJ1

参考链接：

[ 1 ] https://iclr.cc/virtual/2024/calendar?filter_events=Invited+Talk&filter_rooms=

[ 2 ] https://twitter.com/ylecun/status/1788560248988373170

[ 3 ] https://arxiv.org/abs/2311.03079

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~