今天小编分享的科学经验:GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品,欢迎阅读。
今日 GitHub 热榜榜首,是最新的开源世界模型。
上下文視窗长度达到了 100 万 token,持平了谷歌同时推出的王炸 Gemini 1.5,伯克利出品。
强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫 LargeWorldModel(LWM)。
LWM 支持处理多模态信息,能在 100 万 token 中准确找到目标文本,还能一口气看完 1 小时的视频。
网友看了不禁表示,这种大海捞针般的测试,LWM 能完成的如此出色,而且还开源,实在是令人印象深刻。
那么,LWM 的表现到底有多强呢?
百万上下文視窗,可看 1 小时视频
在测试过程中,研究人员用多段一个多小时的视频检验了 LWM 的长序列理解能力,这些视频由 YouTube 上不同的视频片段拼接而成。
他们将这些视频输入 LWM,然后针对其中的细节进行提问,涉及的片段位于整个视频的不同位置,同时研究者还将 LWM 与 GPT-4V 等模型做了对比。
结果 GPT-4V 是一问一个不吱声,闭源强者 Gemini Pro 和开源强者 Video-LLaVA 都给出了错误的答案,只有 LWM 回答对了。
在另一段视频的测试中,其他模型都说找不到有关信息,只有 LWM 找到了答案,而且完全正确。
不仅是理解细节,LWM 也能把握视频的整体内容,做出归纳总结。
在理解的基础之上,LWM 也可以结合自有知识进行推理,比如分析视频中不符合常理的地方。
Benchmark 测试结果显示,LWM 在 MSVD-QA 等三个数据集上的评分仅次于 Video-LLaVA。
LWM 不仅能理解长短视频,在超长文本任务上的表现同样优异。
在 1 百万 token 視窗的 " 插针 " 检索测试中,LWM 取得了单针检索全绿的成绩。
多针检索时,表现也同样优异:
语言任务数据集的测试结果表明,LWM 在 32k 到 1M 的視窗长度上表现不输甚至超过只有 4k 視窗的 Llama2-7B。
除了多模态信息理解,LWM 还支持影像和视频的生成,至于效果,还是直接上图感受一下吧。
那么,研究人员又是怎样训练出这样一款世界模型的呢?
循序渐进,分而治之
LMW 的训练过程,大致可分为两个阶段。
第一阶段的目标是建立一个能够处理长文本序列的语言模型,以理解复杂的文档和长文本内容。
为实现这一目的,研究人员采取了渐进式的训练方式,使用总计 33B Token、由图书内容组成的 Books3 数据集,从 32k 开始训练,逐步将視窗扩增至 1M。
而为了增强 LWM 的长文本处理能力,开发者应用了 RingAttention 机制。
RingAttention 是该团队去年提出的一种視窗扩增方式,入选了 ICLR 2024。
它运用了 " 分而治之 " 的思想,将长文本抽成多个块,用多个计算设备做序列并行处理,然后再进行叠加,理论上允许模型扩展到无限长的上下文。
在 LWM 中,RingAttention 还与 FlashAttention 结合使用,并通过 Pallas 框架进行优化,从而提高性能。
在文本能力的基础上,研究人员又用模型生成了部分 QA 数据,针对 LWM 的对话能力进行了优化。
第二阶段则是将视觉信息(如影像和视频)整合到模型中,以提高对多模态数据的理解能力。
在此阶段,研究人员对 LWM-Text 模型进行了架构修改,以支持视觉输入。
他们使用 VQGAN 将影像和视频帧转换为 token,并与文本结合进行训练。
这一阶段同样采用循序渐进的训练方法, LWM 首先在文本 - 影像数据集上进行训练,然后扩展到文本 - 视频数据集,且视频帧数逐步增多。
在训练过程中,模型还会随机交换文本和视觉数据的顺序,以学习文本 - 影像生成、影像理解、文本 - 视频生成和视频理解等多种任务。
性能方面,研究人员在 TPUv4-1024(大致相对于 450 块 A100)上训练,批大小为 8M、全精度(float32)的条件下,花费的时间如下表所示,其中 1M 視窗版本用了 58 个小时。
目前,LWM 的代码、模型都已开源,其中多模态模型为 Jax 版本,纯文本模型有 Jax 和 PyTorch 两个版本,感兴趣的话可以到 GitHub 页面中了解详情。
论文地址:
https://arxiv.org/abs/2402.08268
GitHub:
https://github.com/LargeWorldModel/LWM
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>