今天小编分享的科技经验:从山姆·奥特曼的圣诞愿望清单,看清2024年大模型发展方向,欢迎阅读。
在平安夜的清晨,就在大家还在热议 GPT-4.5 是否已经悄悄上线的时候,OpenAI CEO 山姆 · 奥特曼发布了一条推文,直接剑指 GPT-5,给 AI 开发者和用户送了份充满充满期待的圣诞礼物。
这份清单其实起源于 12 月 24 日,奥特曼在社交媒体上发布了一条征集帖 " 你希望 OpenAI 在 2024 年能做到哪些事情?" 他的粉丝回复热情很高,奥特曼梳理了一份 List(如图片所示),除了在 AGI 旁边标注了 " 还需要点耐心 " 的字样外,其它的愿望清单都没有做任何标注,我们有理由相信,也许奥特曼认为其余目标都有可能在 2024 年做到。
这份清单包括:
AGI(还需要些耐心)GPT-5 更好的语音模式更高的使用频率限制更好的 GPTs 更好的推理能力控制觉醒程度 / 行为视频功能个性化部署更好的浏览体验可以使用 OpenAI 账号登录开源项目推进
其中最引人注目的是四项内容:GPT-5、视频、开源、更好的 GPTs / 个性化部署,这几项内容可能带来 AI 开发生态、用户体验、及产品能力上质的跃迁。" 控制觉醒程度 / 行为 ",不出意外的也出现在这个清单之中,可以看出大众对这家公司的责任担当的期待。那么,如果要完成这份清单,OpenAI 可能需要解决的难题及突破重点有哪些呢?
01 想要在 2024 年完成 GPT-5 的训练,OpenAI 要做的不少
OpenAI 正在训练 GPT-5 这件事已经越来越明晰了。早在 7 月 18 日,他们已经向美国专利商标局提交了 GPT-5 的商标申请。到了 11 月 14 日,奥特曼接受金融时报采访时也终于承认 GPT-5 已经在路上了,虽然可能仅仅是开发的准备阶段。奥特曼在采访中的表述是 " 在我们训练这个模型之前,这对我们来说就像是一个有趣的猜谜游戏 ",这说明 OpenAI 应该还没开始训练模型。在准备阶段他们在做的可能涉及建立训练方法、组织注释器,以及最关键的数据集管理。
数据瓶颈
数据问题一直被认为是 OpenAI 发布下一代大模型的主要瓶颈。因为缩放效应这种 " 喂的越多模型就越强 " 的逻辑仍然是 AI 能力进步的主要主导思想。但在训练 GPT-4 时,OpenAI 已经有些捉襟见肘了。传闻称,GPT-4 的训练数据共 13T(13 万亿个)token。这一数据量级基本耗尽了现有数据:CommonCrawl 和 RefinedWeb 两个公开数据集都是 5T 个 token;据说余下部分来源 Twitter、Reddit 和 YouTube;最近沸沸扬扬的争论中,马斯克还指控 OpenAI 使用了来自 LibGen、SciHub 等盗版电子图书网站中的数据。
但这一问题当下也有一定的解决方法。
第一个方法就是买:对于私人或公司领網域的数据,OpenAI 在之前的训练中少有涉及,但这部分需付费的内容在互联网中占比是非常大的。今年 OpenAI 就曾表示愿意每年支付高达八位数的费用,用以获取美国媒体自有的历史和持续的金融檔案数据访问权限。虽然美国媒体没答应,而是自己搞了个 Bloomberg GPT,但高价之下,总是可以买来一部分数据的。
第二个就是合成数据训练,微软开发的高质量小模型 Phi-1 就已经实践了利用合成数据训练模型的尝试,在 3T 的训练集中用了大概 1.5B GPT-3.5 生成的高质量合成数据,并取得了模型能力的提升。虽然 1.5B 看起来占比很小,但考虑到微软是用这些数据做教程用的,并非基础能力构建。如果 GPT-5 把遵循一定的条件限制的高质量合成数据应用在更多领網域,那这一合成数据占比肯定能提升不少。
训练周期
按照 Dylan Patel 泄漏的 GPT-4 的训练周期看,在完成训练准备后,OpenAI 在大约 25000 个 A100 上训练了 90 到 100 天才完成,之后又经过了长达 6 个月的对齐工作才发布。整体周期需要 9 个月时间。考虑到 GPT-5 更大,更复杂这一时间长度完全有可能更长,那在 2024 年发布 GPT-5 似乎并不乐观。
但奥特曼的自信并非全无道理。GPT-4 之所以训练了这么久的原因是故障过多导致 GPU 利用率较低,利用率仅为 32% 到 36% 之间。而每次故障都需要重新从之前的检查点开始训练。考虑到今年 Gemini 在训练过程中 TPU 的利用率应该大于 50%,而且当谷歌使用模型状态的冗余内存副本,并且在任何计划外的硬體故障时,可以直接从完整的模型副本中快速恢复。有着英伟达 H200 加成及微软从 2019 年就启动的名为雅典娜的类 TPU 项目加持,GPT-5 在训练利用率上应该会较 GPT-4 有很大的提升。
而对齐工作在今年的进展就更大了。首先是 AI 辅助自动进行对齐工作的可能性被验证有效(RLAIF),这衍生出了很多在 AI 参与乃至主导下的对齐研究。通过这种方式,可以大大缩短之前最费人力和时间的 RLHF 这一对齐步骤,提升对齐效率。但之前这种方法主要适用于用能力强的模型对齐能力弱的模型,提高其能力。但 OpenAI 在 12 月刚刚发布的弱到强泛化论文,提供了较弱 AI 仍然可以对齐能力更强 AI 的证据和方法。两种技术相结合,用 GPT-4 自动对齐 GPT-5 的逻辑和方法都有了,因此对齐时间有望被大幅缩短。
在以上条件下,有理由相信 GPT-5 的全部训练周期可能会短于 GPT-4,这样它在 2024 年发布就不成问题了。
02 多模态还是必争之地,OpenAI 剑指文生视频爆发元年
在这个愿望清单上,另一个值得注意的点是视频功能的支持。这一点 OpenAI 的竞争对手 Google 已经处于领先地位了。在训练 Gemini 的过程中,谷歌使用了多模态原生的数据,其中就包括视频。这说明 Gemini 已经有了对于视频的理解能力。但具体能理解到什么程度,因为 Google 用力过猛的演示让大家都疑虑重重。而且它还缺了生成式 AI 的重要一环,生成视频的能力。
实际上,在文生图,ChatBot 齐头并进吸引走大家的主要注意力之时,文生视频类軟體在今年也获得了巨大的进步。11 月 PIKA 1.0 的发布就引发了相当的关注,利用这个工具我们可以随意用新的生成替换原视频,或生成视频中的任意内容。这些新进展主要归功于 Animatediff 这个框架,它使得一部分运镜限制下,生成视频的闪烁和连贯性都得到了有效控制。
但目前文生视频系统有三个相对重要的短板:1. 高连贯性内容长度难以超过 3 秒 2. 稳定内容对运镜和动作仍然限制很大 3. 生成现实性内容的能力不强,需要用 Midjourney 等工具辅助。
但其中部分问题已经能看到被解决的曙光了。比如说时长问题,近期 Google Mind 发布的新建模方法 VideoPoet,它从本质上是利用支持视频的多模态,将文字和视频进行令牌化(tokenized),从而用大语言模型擅长的自回归模式去预测下一段视频的内容。这与传统的基于 Diffusion(扩散)模型的文生图框架并不相同,理论上它可以生成无限长、具有高度时间一致性的视频。而在生成影像真实度方面,李飞飞的团队近期发表的模型 W.A.L.T 在生成拟真度上有了比较高的提升,已接近照片水准。
在 Gemini 发布时,业界基本预测下一代 GPT-5 也会是一个大一统的原生多模态模型,这就意味着用类似 VideoPoet 的技术 GPT-5 也可以实现视频生成的能力,补齐这一短板。考虑到 OpenAI 自身在 Diffusion 方面的积累和 GPT-5 潜在的超强能力,生成视频的质量应该也相对有保障。文生视频按目前的技术积累看,就在爆发前夜。而 GPT-5 也许就是引爆这一领網域的产品。
03 个性化水平再提升,从知识库到工具的核心路径
在 OpenAI 首届开发者日上,真正的主角其实并非 GPT-4 Turbo,而是 GPTs。因为它第一次把个人化 AI 这一过去门槛颇高的产品落到个体层面,这样才能真正实现个人化的 AI。而只有个人化的 AI 才能满足每个人最个性化的需求,成为私人助理。
但现在这个产品还存在着诸多问题,比如提供了个人数据库后,GPT 的回应还是会经常呈现出它原始的表达模式,在风格模仿上能力有限。另外出于隐私保护逻辑,GPTs 只支持上传内容和接入公共网络工具 API,无法完全利用本地数据。这些都在很大程度上限制了个性化 AI 的足够 " 个性化 "。另外 GPTs 目前的互動也非常依赖 Prompt,缺乏 UI 类的支持。这类问题如果在新的一年解决,ChatGPT 对于大多数人来讲可能就不再是一个只有在搜索知识时好用的产品,而是一个真正可用的万能工具了。
这条路上目前没有其他的大玩家,因为决定个性化水平的基本上是模型能力。只要 OpenAI 保持着模型水平的领先,这一工具化领網域的优先权他们就能随时把控。对于一般用户而言,如果能在原生模型軟體上完成任务,谁还会去用其他个性化工具呢?
在这篇文章发布的时候,奥特曼收集粉丝 2024 年愿望清单的活动还在持续:" 我们将继续收集粉丝们的意见,并尽可能多地将它们纳入考虑,当然也包括许多其他让我们感到兴奋不已但尚未提及的内容。" 正如奥特曼在 11 月接受《时代》杂志采访时所说:" 这将是一个截然不同的世界。这是科幻小说长期以来向我们展示的世界。我想这是第一次,我们可以开始看到它的雏形。" 在圣诞夜,我们可以一起期待,AI 将在 2024 给我们带来什么样的惊喜。