今天小编分享的教育经验:对话英伟达产品经理:AI推理相比6年前已提速3000倍,效率提升将是今年LLM的主题,欢迎阅读。
作者| Latent Space
来源| Z Potentials,管理洞察
咨询合作| 13699120588
图片来源:Latent Space
技术与基础硬體进步相结合:Nvidia、Convai高级产品经理Nyla Worker认为改进量化技术的同时,专注于推理,优化现有硬體和未来推理硬體,实现量化与精度双赢。
打破数据瓶颈:合成数据用于模型训练是一门艺术,是一项独特的技能。如何有效地生成数据,如何在3D世界中对生成的对象进行網域随机化,以有效地训练网络,本身就是一门艺术。高效训练大规模模型和量化模型,从而减少所需的计算资源。
AI在游戏中的应用:计算效率提升对于AI在游戏及影视中的应用至关重要,延迟是我们今天最需要优化的关键因素,以使游戏体验更为自然。另外,Convai致力于帮助NPC 需要采取合适的行动,模拟不同角色,构建角色的心智。
本期嘉宾Nyla Worker是Nvidia、Convai的高级产品经理,并且最近加入了Google,同时她还是世界博览会上"GPU与推理"赛道的主持人。她第一个向我们指出,对于2024年的LLM而言,效率提升将成为主导主题。从她在eBay优化V100推理以用于ResNet-50模型进行影像搜索开始,她见证了诸如多效率提升实例,如GPU推理实现完美硬體并行性、量化感知训练(最近由Noam Shazeer在Character AI离职前强调)以及模型蒸馏(最近由Llama 3.1论文突出强调)等众多改进。这些技术与基础硬體的进步(从V100到A100再到H100以及GH200)相结合,理论上使得现在的推理速度比六年前快了3000倍。
Nyla过去六年的职业经验,在大语言模型中发挥了作用,特别是在LoRAs、原生Int8乃至三值模型以及教师模型蒸馏方面的应用。我们在这期节目中不仅深入探讨了所有关于效率的主题,还讨论了生成式AI如何应用于游戏、粉丝自制电视剧、角色AI对话乃至播客等领網域!
AI Charlie:九月快乐。我是您的AI共同主持人,查理。我们在Latent Space探讨的一个主题是效率在各个层面的重要性,从利用有限的计算资源和数据进行样本效率优化,到为了满足日益增长的需求场景——比如本地大语言模型、实时AI非玩家角色(NPC)以及边缘AI——而不断发展的推理效率优化。
然而,我们尚未深入探讨过这些效率趋势及其随时间的变化。例如,从2020年到2023年,GPT-3级别的智能处理成本从每百万token60美元降至27美分,这主要得益于2023年12月的价格战。请参阅节目注释中的图表和数据。至于GPT-4级别的智能处理,仅用了一年多的时间,LLAMA370B就达到了与GPT-4相当的水平,而LLAMA3405B则在开源领網域超越了GPT-4 Turbo,导致每百万token的混合成本从Claude III Opus和原始GPT-4的超过30美元暴跌至不到3美元的LLAMA3405B。
当然,Open AI自身也未停滞不前,其推出的GPT-4.0 Mini使GPT-4.0的成本降低了30倍。没错,GPT-4.0 Mini的价格仅为GPT-4.0的3.5%,但在LM SYS上的表现却与GPT-4 Turbo持平。当智能处理的价格每年下降超过90%时,推动这一变化的因素是什么?AI工程师应该如何应对这种变化?
事实上,在计算机视觉领網域,过去六年中已经见证了近3000倍的速率改进。我们邀请了NVIDIA和Convay的Nyla Worker来帮助我们回顾过去,分析现状,并展望高效的AI推理未来应用案例。请注意,这段对话是在Nyla加入谷歌AI团队之前录制的,因此你可以期待她在Gemini团队中带来更多的高效工作成果。
Alessio:大家好,欢迎收听Latent Space播客。我是Decibel Partners的合伙人兼CTO,Alessio,今天和我一起主持的是Smol.ai的创始人Swyx。
嗨,今天我们远程工作室里迎来了Nyla Worko。欢迎,Nyla,很高兴见到你。
Nyla Worker: 我也很高兴见到你们。
Nyla 的职业之路:从天体物理学到 LLM
swyx:我们通常根据嘉宾的职业概况来进行介绍,然后让嘉宾自己来补充细节。您在卡尔顿学院进行了天体物理研究,之后你进入了机器学习领網域。您在eBay度过一段时光,但您最近四年在NVIDIA工作,从合成数据到云端容器解决方案都有涉猎。现在您是Convai的产品管理总监。有什么是您希望人们了解的,但可能在LinkedIn上并不是那么显而易见的信息吗?
Nyla Worker: 我认为不是很明显的一点是从天体物理研究过渡到人工智能的过程,以及这个过程是如何发生的。在天体物理学领網域,我在大学一年级时的工作是分类某个天体是超新星遗迹还是系外行星。虽然听起来很酷,很不可思议,但实际上这项工作就是查看氧气和硫的影像,并手动选择每个区網域。坦白说,这是极其枯燥的。于是,我发现了一篇1996年的论文,名为"源提取器",或者它出于某种原因称之为"Sextractor"。这是一个基于合成数据训练的多层感知网络,以分类识别出一个对象是恒星还是星系。
这让我看到了一个强大的优化机器,当输入正确的数据时,它可以执行并自动化像这样手动分类的任务。这让我想要了解更多,如何训练这些模型?又如何有效地部署它们?如果它对分类星系有用,那么还有哪些其他应用场景呢?我们可以展示大量数据,训练这些函数去预测下一个词或是判断这是猫还是狗等类似任务。因此我转向了计算机视觉研究,特别是深度神经网络的训练扩展。
那时我使用的是CPU,当然做法是不正确的。后来我去了eBay,在那里我转而使用GPU,同时也从事Jetson和边缘设备的工作。这是一个有趣的过程,展示了这一切是如何连贯地结合在一起的。
高效推理,优化延迟
swyx:今天的很多播客内容实际上都在谈论效率以及随时间变化的效率曲线。我之所以邀请您参加这次访谈,是因为我正在寻找能够讨论这个话题的人。您从计算机视觉领網域的效率曲线入手,带来了深刻的见解。我想知道您是否可以评论一下,为您的职业生涯中已经见证的事件设定一个背景。
Nyla Worker: 当我刚开始工作时,首先致力于扩大训练规模并提高训练效率。随着时间的推移,这一领網域已经有了显著的发展,关于训练有很多内容。但我发现,如果想让这些技术真正有用,你应该专注于推理。随后我加入了eBay,在那里我在硬體团队工作,但我的工作是为硬體团队进行軟體优化,以便AI研究团队的研究成果能够在硬體上高效运行。
我开始利用诸如TensorRT这样的优化框架来优化模型(如ResNet 50)。eBay的AI研究团队实现影像搜索的方式是一种计算机视觉模型,我们会从这个ResNet 50模型的特定层获取嵌入(embedding),然后与其他影像进行某种距离计算。这种方法在当时是非常先进的,而我的任务是让它更高效。实际上,它进入生产环境的方式是单张图片输入ResNet 50,即批次大小为一,有一定的延迟。但是产品有要求,对吧?这就是推理变得非常有趣的地方,因为它不仅仅是要做到最快,更是要达到人类可感知的延迟。
在过程中,我们意识到对于特定的推理任务,延迟应该是七毫秒。当然,整个服务可能会在50到100毫秒内完成,这对人类来说几乎是不可察觉的。所以,我的目标是使硬體获得最大的效益。
我们评估不同的硬體,但我特别关注的一款是V100,并且我们使用TensorRT进行了优化。TensorRT在后端做了很多工作。例如,它融合了内核,量化了模型,并减少了精度。当然,现在大家都谈论量化,但在那时,这还意味着从FP32到FP16的转换。那时候Intel的技术还非常稚嫩。即便如此,我们将生产环境中的服务从处理一张图片优化到了七毫秒内处理四张图片,并且效果非常好。从那以后,我们看到同样的模型有了显著的进步,那时我们使用的是2018年的TensorRT和ResNet 50。
四张图片在七毫秒内处理。如果粗略计算一下,这意味着大约571的吞吐量。而如果你看看过去几年所取得的效率提升,并考虑到这运行在一个未经特别优化的V100上,你可以查阅去年MLPerf的数据,现在这个数字已经达到了88,000。每秒处理的图片或样本数88000。他们使用样本作为部門。显然,这不一定是一个完全公平的比较,因为你需要仔细阅读具体细节,了解他们是如何运行测试的。他们并不是针对延迟进行优化的。他们是优先考虑其他因素,但即便如此,这个数字仍然是令人震惊的,不是吗?在我在NVIDIA期间,我还学到了其他一些东西。我可以更深入地探讨这个问题。
推理侧硬體算力优化
Alessio:是的,没错,这很棒。我认为硬體部分尤其重要。比如说,当你在eBay的时候,你提到了V100是当时的顶级硬體。V100大约有130万亿次浮点运算能力(teraFLOPs),而在FP4精度下的GB200则达到了约20,000万亿次浮点运算能力。所以仅从硬體本身来看,如今的硬體要强大得多。我很想听听您当时在为现有硬體优化时的想法,以及您在NVIDIA工作期间对未来硬體的洞察,因为现在人们或许还在进行类似的讨论:我们是应该为现有的硬體优化,还是为未来的硬體优化?我们今天需要一个结果,但从商业角度来看,这样做可能会浪费时间。我很想听听您的看法。
Nyla Worker: 看到这两个世界相互碰撞是很有趣的,因为我加入eBay时,我在硬體团队,而平台团队和AI研究团队是分开的。硬體团队决定了公司整体的硬體配置,而AI研究团队则依赖于这些硬體。所以看到这两个世界之间的认知差距,并亲历其中,是很有趣的。那么,你如何决定使用哪种硬體?在哪里进行优化?为未来的硬體构建系统是一个有趣的问题。
正如你所见,我在2018年运行这个项目时,使用的是V100来处理ResNet 50,这在今天看来有些过分了,因为现在除非是一个巨大的批量工作负载,不会使用V100来运行ResNet 50。但你不会在GB100或200上跑这个模型,你会在Jetson设备上运行它,这是一个只需一百美元就能买到的现成设备。
显然,硬體发生了变化,这更多取决于具体的使用场景以及你未来的发展方向。我坚信,从统计学角度讲,很难准确预测两年以上的事情。芯片将在三年后上市,三年后的世界会是什么样子?我不敢确定。回到优化层这一点上来。如果你看NVIDIA的幻灯片,他们会比较同一种芯片在不同年份的表现。他们显示即使在同一块芯片上,性能优化每年都变得更好。
为什么会这样?让我们谈谈计算机视觉,随着时间推移使其性能大幅提升的原因很明显,例如,我在eBay时将批处理大小增加到四个,它仍然满足了延迟约束,但仅仅是增加批处理大小,就有动态批处理的概念,这对于大语言模型而言类似于连续批处理或飞行中的批处理。
这些年,我们的量化和量化技术也在不断改进。比如在2018年,我使用的是FP16,而INT8刚刚出现。关于不同类型量化的讨论已经开始,但技术的发展需要时间。例如,当我在NVIDIA工作时,我们专注于边缘设备,并特别为边缘设备开发了框架。我们不仅实现了INT8量化,而且还进行了量化感知训练,这使得模型可以在这些量化约束下运行。我们也看到了这一点,尤其是在训练过程中,LLMs表现出更好的收敛性。但这是我们最初在计算机视觉中观察到的现象。其他的优化还包括FP16,以及许多迭代版本,如bfloat16,从TPU开始,基本上所有硬體都对其精度进行了各种优化,从而提升了性能。你基本上可以从一种硬體切换到另一种硬體,而这些优化会被相应的框架所吸收。
对于计算机视觉,我们看到的其他独立于硬體本身的优化还包括剪枝。也就是说,在模型训练完成后,你可以剪掉那些接近于零的激活值。然后你需要再进行一轮新的训练和部署。在我为NVIDIA与客户合作时,这种方法使我们的效率大幅提升。不过这种方法目前对于大规模语言模型来说并不高效,但谁知道在未来两三年内会发生什么呢?也许有人会提出新的方法。我可以在节目笔记中附上一篇试图更高效地为大语言模型进行剪枝的论文链接。正如你所见,有一些优化是直接抓取硬體的特性,但还有很多优化是发生在网络本身上,以随着时间推移不断优化并提高效率。
Alessio:您是否有不同的方法来应对不同的需求,比如降低延迟,或者提高吞吐量?这些技术中是否更适合特定的指标,或者无论如何一切都变得更好?
Nyla Worker: 确实如此。例如,在计算机视觉中增加批处理大小会立即提升吞吐量,但这受到内存限制。然而,作为产品经理,延迟是一个你关心的约束条件。比如,不能超过七毫秒,否则用户体验就会变差。在优化过程中,经常会遇到这种情况。
因此,这是一个非常复杂的优化函数。例如,即使是在量化过程中,当我们部署用于识别车牌号的ResNet 18模型时,也需要做出非常明确的权衡,即为了获得效率提升,我们能在多大程度上牺牲准确性或其他评估指标,如召回率等。在某些情况下,例如在工厂的生产线上,许多物品需要通过,这时你更关心的是延迟问题;而在其他场景下,则可能有所不同。因此,这些优化非常依赖于最终的应用场景。
量化与精度之间的取舍
swyx:我非常喜欢你将你在计算机视觉领網域所见到的情况类比到大语言模型上的这种说法。我对量化精度及召回率之间的权衡很感兴趣,无论是精确召回还是其他。在我的感觉中,计算机视觉领網域的精度下降要比语言模型更为平缓。这是准确的吗?
Nyla Worker: 你是什么意思?
swyx:当进行量化时,显然会损失精度,因为拥有的比特位减少了,用来存储信息的空间也就少了。我的理解是,在计算机视觉中进行量化时,你能够更准确地保留特征的主要成分,而这正是你真正关心的部分。而在语言模型中,单词的意义之间存在很多复杂的相互作用,Anthropic称其为叠加态。当你进行量化时,你可能会丢失那些在语言中非常重要但在视觉中相对没那么重要的低位信息。我不知道你对此有什么看法。
Nyla Worker: 我需要和专家们讨论这个问题,但我的直觉是,模型越小,权重就越重要。我的意思是,如果模型非常小,那么它的参数数量也会很少。因此,这些参数所传递的信息需要更加精确。我的直觉是,例如在ResNet 18上,当我们进行量化而不进行后续的量化感知训练时,模型的正确率会急剧下降。这是我们必须要极其小心处理的问题,这也是为什么会有那么多为此设计的技术。但这是我个人基于经验形成的直觉。
对于大语言模型而言,由于它们规模庞大,微小的变化可能对它们的影响不如对非常小的计算机视觉模型那么显著。当然,在处理大型计算机视觉模型,如Segment Anything等时就不适用了。但如果你有一个非常小的单一任务模型,如ResNet 18,如果你稍微丢失了一些权重,没有正确地进行量化,那么你的结果将会迅速变得一团糟。
swyx:我同意这种直觉。现在人们讨论的一个话题是极端量化。有一篇关于三值模型(1.58 位模型)的论文。我不知道这种技术有多大的可行性,但人们正在以开源的方式复制它。很多人在讨论这个话题。我不知道该如何评价它,因为我觉得大型实验室还没有真正采用这种技术。
Nyla Worker: 是的,我对那个技术也不确定,但我认为在某种程度上,对于如此大的模型,你几乎只需要一个方向性的数字,例如"是"或"否"。然后它就像是一个选择方向的门一样。因为模型拥有如此多的参数,对于这些门来说,"是"或"否"的选择比我们得到的具体精确数值更重要。
我喜欢用物理学的角度来思考这个问题。我们为模型找到了非常精确的权重,就像常数一样,对吧?这些常数已经被证明在很多情况下都是有效的,并且是为特定方程精心选定的。而在超大型模型中,更像是方向性比具体的数值更为重要,这是我的个人直觉,但也有许多常年专门研究量化技术的专家能更好地回答这个问题。
打破数据墙:Nvidia 对合成数据的需求
Alessio:这是从模型推理的角度来说的。你在NVIDIA还做了许多其他出色的工作,特别是在合成数据方面,比如构建影像,还有三维数据等方面。您能大概总结一下你在NVIDIA五年的主要工作吗?因为我涉及了很多方面,可能不只是推理优化和其中的一些工作。
Nyla Worker: 事实上,我在eBay工作时就接触到了NVIDIA,并且后来我加入了他们的解决方案架构师项目,在那里我可以接触到NVIDIA的所有人工智能客户,并为他们提供支持。在那段时间里,我参与了一个轮岗计划,为零售客户、边缘AI客户和试图以某种方式利用AI的其他客户提供支持 。
例如,对于零售业,应用场景包括像Amazon Go这样的无人商店或零售防盗保护。对于边缘AI,应用场景包括机器人、制造业以及自动驾驶汽车上的计算机视觉网络等。这是我的前两年工作,有数百家客户试图利用计算机视觉。也有一些大语言模型的应用,但那时技术还不成熟,它们主要用于推荐系统或搜索。在计算机视觉方面,我们发现了一个问题。然后我决定加入边缘AI团队,在那里我与西门子等大公司合作,了解他们在生产线上的部署情况。
然而,几乎所有客户的面临共同问题:数据。他们可以使用现成的模型,市场上有大量的影像数据集,但这些数据集并不能满足他们特定的小众应用需求。例如,在汽车制造线上检查划痕是一个耗时费力的工作,而这样的数据集并不存在。在零售业,货架上的商品数据不足,而且包装经常更换。因此,数据非常关键。我开始着手生成能够立即自动支持这些需求的合成数据。例如,我与亚马逊合作了一个项目,我们在3D世界中合成替换胶带,这对于亚马逊来说是一个大问题,因为他们需要快速重新训练计算机视觉网络来识别带有新亚马逊胶带的包裹。
这只是一个起点,后来扩展到了机器人领網域。我与Festo合作了一个3D操作器项目,该操作器需要检测物体的姿势。怎样才能得到姿势数据?传统的方法是给物体贴上标签,比如二维码,以便获取一些真实数据进行标注。但这是不可能的,这就是合成数据真正重要的地方,因为你无法在每个位置都获取物体的姿势数据,而且这样做会干扰物体本身,在现实世界中,物体上不会有二维码标签。这就是我看到所有需要合成数据的地方。
我与像Jonatan Tremblay这样的杰出研究人员合作,进行了大量的3D和合成数据生成研究。我们遇到了数据瓶颈,无法仅凭现有数据继续前进。现在该怎么办?我认为我们将在大语言模型上看到类似的情况,我们将遇到数据瓶颈。然后该怎么办?显然,也有为大语言模型生成合成数据的技术,让我们拭目以待其发展。在将合成数据产品化的过程中,我意识到使用合成数据进行训练是一门艺术,是一项独特的技能。例如,如何有效地生成数据,如何在3D世界中对生成的对象进行網域随机化,以有效地训练网络,这本身就是一门艺术。但总的来说,这就是将所有事情联系在一起的关键。
Alessio:是的,这很好。我认为在考虑大语言模型时,我们之前在Chinchilla和一些扩展定律上所做的优化思考是为了找到一个恰当的平衡点,而不是针对任何特定方面进行优化。而现在,我们只是专注于优化推理。我们在算法层面,甚至在GPU层面,通过一些新的数学方法和像Cutlass这样的矩阵乘法工具来做这项工作。但在数据方面,我们还没有到达需要大量生成合成数据的地步,这似乎与机器人技术和3D环境中的需求形成了对比。
在3D环境中,合成数据并不多。因此,目前大部分工作仍然集中在获取更多的数据上。我们还没有真正看到太多类似Sora这样的令人印象深刻的应用,虽然它与3D有些相关,但实际上输出是二维的,但它有自己的3D引擎,可以运行任何想法。
在游戏引擎中生产合成数据
Alessio:您可以谈谈你在3D合成数据方面所见,并思考我们在大语言模型方面还有多远的路要走,比如我们何时将需要真正扩大合成数据的规模,以使这些模型能够突破下一个性能障碍。另外,对于Sora,您有什么看法?我知道这个模型非常私密,没有多少人有机会实际操作过它。
Nyla Worker:我对于Sora没有什么看法,我认为它让许多从事这方面研究的研究人员感到困惑,甚至引发了他们是否应继续研究的危机。但是对于Sora我没有太多可以评论的,正如你所说,它非常私密,关于他们是否使用了Sora也仅仅是传言。
关于来自游戏引擎的合成数据,这类技术是存在的,但我不确定具体细节。我能说的是,我的合成数据产品是基于游戏引擎生成时间连贯的数据,例如,这适用于姿势估计,同时这种估计是基于物理信息的,因为游戏引擎提供了物理属性。这样生成的数据可以用于训练。例如,对于物体生成,游戏引擎会赋予它们一些逻辑,比如它们具有一定的重量,你可以对这些属性进行参数化。因此,这会为那些我们难以获取信息的场景生成非常好的合成数据,并提供高质量的真实标签,与视频相比,即使是由人工标注的视频,也可能在时间连贯性上出错。
那么这一切与大语言模型有何关联呢?我在NVIDIA工作的最后几个月里,我致力于帮助改进和加速3D内容创作流程。在这方面有很多模型正在增强3D内容创作的流程。例如,我们可以从基础开始,比如文本到纹理。比如你可以更好地在3D世界中对资产进行纹理化处理。文本到材质,通过简单的文本提示即可获得材质。接着是影像到3D,Sanyas Fiedler团队和Ming Yu团队创建了很好的模型。此外还有Dreamfusion等专注于3D内容生成的研究。
即便如此,由于这些资产可能存在几何错误,你仍需对生成的资产进行重新拓扑化。因此还有一些正在进行的研究,旨在将其转换为正确的拓扑结构。我看到了所有这些技术的融合。就像我之前提到的,我们现在有点像是处于3D生成的GAN时代。你看到了前景,但生成的结果可能仍很可怕,比如生成的"瘦长鬼影"对象。我有一个项目就是使用此生成资产,结果就是一个瘦长鬼影。实际上,我将Andrej Karpaty的形象通过一个3D生成机器生成,结果变成了一个瘦长鬼影形象,但我们在进步。
我认为技术将以非常有趣的方式融合。我们已经有了视频生成,但视频生成并不具备3D空间的灵活性。一旦我们能够生成较少缺陷的3D内容,就会带来全新的体验。我预见未来将有各种3D世界的角色和无尽的体验,创造全新的娱乐层次。这也是我加入Convai的原因之一。在那里,有这些具身化的3D对话角色,它们进行任务规划,周围的环境也是完全生成的。
我们已经有了一些程式化生成,想象一下,如果你可以自由表达你的想法,场景中的所有元素都将随之生成,或者根据你的兴趣生成你喜欢的世界,为你创造某种体验。我相信这就是我们未来发展的方向。这也是我一直在努力的方向,技术正在融合并且迅速发展。
模型蒸馏
Alessio:另外,我认为我们还可以讨论一些关于推理的话题,除了我们已经提到的之外,另一个方面是如何扩展模型以实现更好的性能,这其中就包括了合成数据的应用。您觉得我们还有什么遗漏的地方吗?我想知道,在这方面,还有哪些是您特别想讨论的内容。
Nyla Worker: 我们可能遗漏的一点是如何有效地训练大语言模型。我们基本上把整个互联网所有能获取到的标记数据都塞进了模型中。显然,OpenAI做了大量的工作来剔除有毒的数据等,但这仍然是相当粗暴的方式,就数据量而言,我们认为数据越多越好。然而,当你试图将模型应用于某个具体场景时,你会发现其实并不需要一个能做数学、物理和计算机科学计算的模型来告诉你一辆车的颜色。我们在计算机视觉中看到了这一点,比如模型蒸馏。
我们最初从ResNet 150开始,然后尝试了其他模型,但在一段时间内,我发现一个有趣的现象:ResNet 50总是重新出现。人们会转向VisionNet、视觉变换器(Vision Transformers),但很快又发现,视觉变换器并不容易训练,需要大量的数据,所以他们会回到ResNet 50,或者尝试其他模型,结果发现ResNet 50仍然有效。无论如何,这适用于非常受限的应用场景。或许这也意味着在实际应用中,我们会不断回归到那些经过验证有效的模型上。
Alessio:这很有道理,我们可能还在寻找不是Transformer的其他东西,也许教训是:我们不应该偏离太远。
Nyla Worker: 是的,虽然我没有像三年前那样深入编码,但从阅读论文和与Google DeepMind的研究人员交流中,我发现他们选择某些函数是因为这些函数在计算上更高效,比如多头注意力机制,它在并行训练方面的表现优于LSTM。这种计算效率和我们能够塞入更多数据的能力是非常重要的。当然,也有一些重大突破,但我认为这是旅程中一个突出的方面。
Alessio:你认为现在人们在训练阶段有哪些误解?我们谈到了推理优化和数据方面的问题。在训练方面,你还有什么想说的吗?
Nyla Worker: 正如我提到的,目前的训练过程是非常低效的。当我们发现真正有价值的用例时,我们将能够通过训练过程找出真正有价值的数据。我认为,一方面,我们可以维持同样的大规模模型,但训练得更高效,并更高效地量化模型,从而减少所需的计算资源。另一方面,既然我们知道这种方法有效,我们可以进行模型蒸馏。
不过,模型蒸馏的有效性仍然有待商榷,比如我们能否让一个类似于Mistral 8位的模型在受限条件下表现出与ChatGPT或GPT-4类似的性能。我认为对于某些特定的用例,我们最终会实现这一点。例如,Databricks助手结合了不同类型模型的优势,以协助完成特定任务,既考虑到成本也考虑到实际需求。
如果你在执行agent操作,你肯定不希望因为计算资源过于消耗而导致你的SaaS业务的利润率受损。这些都是幕后发生的事情。像Copilot这样的工具受到了人们的喜爱,尽管它比GPT-4要小得多。
swyx:我认为他们已经对OpenAI最初的Codex模型进行了多轮蒸馏以用于Copilot,这确实是有道理的。我一直在尝试梳理蒸馏的哲学,并试图区分不同的蒸馏目标。一种是人们通常所指的知识蒸馏。但对于大语言模型来说,它也开始包含偏好蒸馏。也就是说,你可以使用大语言模型作为裁判,基本上是从一个模型中窃取强化学习人类反馈(RLHF)的能力并转移到另一个模型上,这样你就有了相同的RLHF偏好数据,而无需支付成本。
然后还有推理蒸馏。我认为有一些模型,比如orca模型,你可以将思维链输入模型中。此外,还有很多基准测试的游戏化。众所周知,你可以将基准测试的知识蒸馏进模型,从而使其在基准测试中的表现更好。但目前不太为人理解的是,那些不可被游戏化的排行榜,比如LMSys排行榜,同样有可能被游戏化,你可以蒸馏出较小的模型,使其在这些排行榜上表现良好。
Nyla Worker: 在计算机视觉领網域,我们经常看到有人在基准测试上做手脚。我不相信那些数字接近的基准测试结果。这种情况现在已经变得毫无意义了,因为它已经被完全游戏化了你只需投入最多的计算资源,然后选择一个符合基准测试要求的检查点,然后提交结果。我遇到过训练大规模模型的人告诉我,他们无法重现这些结果,这些结果完全不可重复,但他们有一个检查点,那次它成功了,于是他们就提交了论文。
swyx:这就叫是研究生的无奈。
Nyla Worker: 是的,你绝对不能信任这种情况。这也是为什么我会花很多时间和客户一起确认,这是否是一个有效的测试集?这真的是你的测试环境吗?这确实是你需要验证的内容吗?达到这样一个可以验证的状态是非常具有挑战性的。
swyx:为了让大家与时俱进,你了解FineWeb吗?这是一个来自Hugging Face的数据集,类似于清理过的C4数据集,但他们使用大语言模型不是用来蒸馏,而是用来过滤数据。利用大语言模型来提高数据质量似乎是未被充分探索的领網域。从FineWeb项目的初步结果来看,你可以用少十倍的标记数据来训练出相同质量的模型。也就是说,使用100亿数据与使用10亿标记数据相比,在GPT-2架构上训练出的模型质量相当,甚至稍微更好,这体现在困惑度和评估分数上。这很有趣,因为它并不是合成数据,而是通过其他形式提高了数据的质量。
Nyla Worker: 的确。对于合成数据,我们发现如果提供的数据分布正好符合你在现实世界中的需求,那么是足够的。这意味着你不需要像以前那样使用那么多的样本进行训练。某种程度上,我觉得这就像在埃克塞特这样的地方教育孩子一样,孩子的聪明程度并不重要,因为信息被很好地传递给他们,特别是有些学校能够很好地匹配合适的信息给你。
对于人类来说,这种方式是有效的,我不明白为什么这种方式在这些模型上就不适用。我们在计算机视觉领網域看到了它的效果。只需要一个小数据集,只要数据是合适的,并且很好地适应了需求,模型就能正常工作。这就是我们得出的经验。
传统 ML 与LLM 通向AGI的路径
swyx:我认为这里的问题在于,虽然我们理解如何在传统的机器学习环境中做到这一点,但当你试图构建AGI时,现实世界是全方位的。没有什么可以用于专门优化的目标,因为它涵盖了一切。那么,您如何为所有内容优化呢?
Nyla Worker: 我认为AGI将会出现在AI能够获得完整反馈的领網域,这只是我的直觉。例如,在编程环境中,AI将有能力重新运行代码并重新评估其性能,这样就会奏效。但是,对于那些无法获得反馈的情况,我还不清楚该怎么做。比如在机器人技术中,我们需要首先拥有非常出色的抓握传感器或视觉传感器,以便最终能够形成某种反馈回路。但这更多属于强化学习的范畴,我们已经在其中看到了超人的表现,但它是在使用大语言模型中。我认为我们仍在利用现有的资源进行估计。这是一个非常有趣的话题,但关键在于你如何定义它,以及如何衡量它。
swyx:除了定义之外,我想传达的是传统机器学习的思维方式,即先理解问题,然后设计数据集和架构来适应这个问题。但是在基础模型范式下,没有具体的问题可以优化,因为你试图建立的是一个通用的、适用于所有事情的模型。
Nyla Worker: 然而,我们用大语言模型做的事情是选择下一个词。我的观点是,文本是完全标记的数据,因为它是人类输出的内容。我们看到诸如"教科书就是你需要的一切"的论文,这是因为教科书信息密集,是人类多年精心雕琢每一个字的结果,而大语言模型从中学习。这是一种多任务学习,它通过这种精心挑选的学习做了很多事情,所有内容都是被标记的。
我认为这很接近人类智能,但我不确定这是否会成为最佳的人类智能。比如,谁能够写一本量子力学的书,而AI现在能够预测量子力学教科书中的下一个词,这可能是人类智能的最佳体现。但我并不完全确定。我对AGI的定义是它能够自我提升,并且远远超过人类所能创造的任何东西。我并不完全相信我们现在拥有的技术能够实现这一点,但也许我是错的。这是我目前的观点。
ConvAI - AI NPC
swyx:我们可以把这个话题留到喝咖啡时闲聊,现在继续讲Convai。
Nyla Worker: 我加入了Convai,这是一个制作对话型3D AI角色的公司。这些角色显然具有我们之前讨论的大语言模型所赋予的认知能力,这是一种增强检索的生成模型。这些模型能够进行对话,我们有文本到语音、自动语音识别等功能。我们正在集成多模态技术,例如,我们有一个多模态网络可以让NPC感知世界。NPC指的是非玩家角色。我们非常注重这些角色的具身化。如果你访问我们的页面,你会看到我们与所有Avatar创建平台的集成,例如Relution或MetaHuman,这样我们就可以给这些角色赋予身体、表情和个性。
我们使用工具来动画化面部,并利用动作模型——这是一种大型语言模型的微调版本,带有四个动作——使得这些游戏中的角色能够执行动作。比如,如果你告诉它,"到这里来,给我拿一把斧头",它就会去给你拿一把斧头。这就是我们所做的工作。我们发现这些技术在游戏领網域非常有用。例如,有一个独立开发者制作了一款游戏,你需要说服NPC撤离某个区網域,否则你就要消灭它们。这是一个应用场景。此外,还有一些社交游戏机制正在探索,比如说服其他人撤离的能力,看你怎样运用社交技巧来实现这一目标。
这是在游戏方面的一些应用,我们还看到这些技术被用作品牌代言人。比如,我们已经看到了聊天机器人,它可以回答你关于X公司的所有信息,并充当客服角色。但这只是开始,下一代的品牌标志将是代表你品牌的角色,它说话像你的品牌,看起来像你的品牌,发型、面部特征等都符合你的品牌形象。这是我们非常重视的另一个领網域。
swyx:有没有什么知名的品牌可以链接到这一点?我知道一些Instagram上的AI influencer 或AI包装者,但我不知道是否有品牌身份的例子。
Nyla Worker: 我们有一些即将推出的东西,但我不想透露太多细节。
swyx:即使不是你们做的,但你知道业界有公认的金标准或其他类似的东西。
Nyla Worker: 是的,有一些品牌大使。Jensen在GTC Computex上发布了一个关于数字人类的重要公告,讲述了数字人类在未来的作用。例如,Hypocratic正在塑造一名护士,也就是一位数字护士,我可以告诉你有关它的信息。我认为这是一种全新的与计算机互动的方式。因为这种方式更加人性化,包含了品牌的所有信息,具备品牌的风格,就像网站所介绍的一样,现在它还有声音,并且它也是传输信息的方式,高度针对与该角色交谈的人。你已经在Computex上看到各种品牌代理的医疗助手在做这样的事情。
swyx:一个有趣的事实是,我确实在Computex现场。我刚从台湾坐飞机回来,并且我看到Jensen在一位女士的身体部位签名,这件事在社交媒体上引起了广泛传播。他就像一个摇滚明星一样,到处都被一大群人包围着。我相信这对他是很不舒服的,但他似乎接受了这种状态。
Nyla Worker: 你能想象过去五年发生了多大的变化吗?当我加入时,他在NVIDIA内部是深受爱戴的,NVIDIA对Jensen有着近乎宗教般的追随,但在NVIDIA之外并不是这样。而在过去一年里,他变成了一个巨星。很难想象那是什么感觉。
swyx:是的,太疯狂了。Lisa Su也在那里。这就像是一场家庭聚会,因为他们彼此是表亲。我认为他们没有在同一间房间里,但有很多人在崇拜这些GPU之神。
让我们回到agent上来。有很多品牌和聊天机器人。我觉得这些都是同一件事,像代理、聊天机器人一样。我认为人们误解或不太理解的是,需要哪些完整的堆栈才能实现这一切?有LLM,有增强检索(RAG),有语音合成。还有什么是我遗漏的吗?
Nyla Worker: 面部动画,手势动画。
swyx:视觉。
Nyla Worker: 视觉也是缺失的一部分。所以我们正在进行的一个项目,我们正在与客户合作,它现在更像是幕后工作,但它涉及到一个可以看到你、与你交谈并对你的反应作出回应的agent。
例如,我们有一个演示,虽然是非公开的,角色会看着你说,你为什么用那种表情看着我?这改变了整个流程,因为现在如果你只是与它交谈,这与它能看到你、看到你的反应并开始交谈完全不同,这会改变你的状态,并且基于此做出反应。
我认为所有这些元素共同构成了一个真实的体验。这感觉很不一样,很难解释,但当你与这些角色交谈,它们看着你,并且它们的面部表情随着你的动作而变化时,这感觉像是一个巨大的改进。
swyx:是的。我在Computex现场时,他们展示了一种悬浮玻璃设备。它有点像一块玻璃,但里面有一块螢幕。你可以透过它看到东西,但它也是一个螢幕,一个全息图。看起来非常逼真,好像它们站在那里一样。但如果走近一点看,你可以看出它是假的。他们的眼睛会在你走动时跟随你。它们真的在看着你。这有点令人毛骨悚然,但显然存在延迟问题。
Nyla Worker: 这是整个行业追求的方向,我认为我们会实现这一点。这就是为什么所有的讨论都集中在推理上。我的大腦总是朝这个方向思考,因为延迟是我们今天最需要优化的关键因素,以使体验感觉自然。
正如我在eBay的工作,我的任务是降低推理延迟,使之对我们来说感觉自然。而现在,随着NPC的发展,我们正朝着这个方向前进,并且很快就会实现。另一点是让角色带着正确的情绪看着你,检测你的语气。例如,我们与NVIDIA合作做了一个拉面店体验的演示。对于角色来说,去拿拉面是非常重要的,当它与你交谈时完成这些动作,并且反应时间要自然,这些都很必要。
我个人认为对话只是这个旅程的第一步。角色需要能够在世界中执行某些动作。例如,我们正在使用 "第二人生"(Second Life),我们的NPC负责教你如何进入这个环境,甚至把你介绍给其他人。因此,它们不仅仅是进行对话,还会指导你,比如,如何拿起冲浪板。在Second Life中你可以冲浪、飞行、跳舞,但除非有一个像AI助手一样的角色引导你,同时具有个性并融入Second Life的环境,否则你可能不会知道这些。这些是我们看到的所需的功能。不仅仅是对话这么简单。
Alessio:我玩电子游戏很长时间了。我觉得这就是一直以来很难完全沉浸其中的原因之一。就像在你开始与NPC交谈之前,你可能杀了十几个人。然后你和NPC交谈时,NPC却说,真是美好的一天。这就像是,它完全没有意识到周围发生的事情。所以这个改进看起来是一个巨大的进步。
Nyla Worker: 我们看到mods在做这个。前几天有个朋友打电话给我,他说,嘿,我需要一个mod。在我把Howard's Legacy的商店洗劫一空后,NPC却说,你好,今天我能怎么帮助你?我洗劫了你,请回答。
Alessio:是的,正是如此。
模拟不同角色以进行训练
Alessio:我们大约两三周前有一期节目是关于模拟AI的。您是如何看待NPCs和游戏的?您显然在模拟机械环境方面有很多经验。对于更像语言或思维环境的模拟,你是否也认为NPCs可以作为模拟我们希望从大语言模型中获得的行为的一种方式?
Nyla Worker: 你能详细解释一下你的想法吗?
Alessio:比如,考虑一个处理邮件的agent,你可以测试大语言模型生成文本的能力,你无法模拟结果会怎样,但是你可以有不同的NPC,比如销售代表NPC和顾客NPC,然后你可以模拟它们之间的对话,从而了解顾客可能会提出什么样的反对意见等等。您提到了面向消费者的品牌的用例,那么内部呢?您是否看到了企业内部某些功能的数字孪生?
Nyla Worker: 是的,我所看到的是有两个方面。一方面,我们有NPC对NPC的功能,你可以看到两个NPC之间的模拟对话。根据你如何构建这些角色的心智,例如,在Jean和Nova的演示中,Jean只懂拉面,所以他只会回复与拉面相关的内容。而Nova则掌握了CES期间发布的最新GPU的信息,所以她会不断谈论GPU,而Jean则不断谈论拉面,这种混合对话非常有趣。
我可以想象这在企业中是如何运作的,你可以設定一个与销售代表完全持相反意见的NPC,然后你可以观察他们的分歧以及他们的反应。企业正在使用的其中一个用例是员工培训。例如,你想训练医生如何应对不同的病人,有的病人态度恶劣,有的病人态度友好。因此你可以创建具有各种反应的NPC。但这是企业赋能培训的早期阶段,这种培训更为现实,使用了类人角色。让我们拭目以待。
Alessio:这听起来很棒。我认为这也许是人们在想到NPC时的一个误区。人们通常想到的是电子游戏。但大多数实际的用例似乎是商业性质的。虽然电子游戏市场很大,但最终能够销售给的大型游戏发行商并不多。
Nyla Worker: 我认为在游戏方面,随着AI体验的到来,将有一种新的互动方式出现。它是在游戏中,但它更像是一种全新的娱乐形式,包括对话生成、程式化世界创建等。我们将在未来几年内看到这种情况的发生。对我来说,这是显而易见的,但正如你所说,的确,大型工作室很少,而且它们有自己的开发方式。
它们有时不太愿意尝试新的游戏机制,这就是为什么我们看到很多创新来自独立开发者。像Convai这样的工具受到开发者的喜爱。我们在Unity和Unreal资产商店中都是最受独立开发者欢迎的资产之一,他们正在探索并提出惊人的创意和游戏。但总的来说,我们在游戏之旅上还处于早期阶段,但我相信这将会到来。而在商业用途方面,这些人形实体也将变得不可或缺。
Alessio:关于内容方面,我知道你们做了一个关于AI爱情故事的AI生成播客。在这方面有什么最新的进展吗?您是否有看到其他有趣的项目,或者从中得到了什么学习经验?
Nyla Worker: 我创造了第一个由AI生成的播客。那周ChatGPT发布了,我当时就想,哦,这个比GPT-1好多了。然后我就想,我们可以生成标题,可以生成图片,可以生成声音,我们可以用AI做所有的事情。于是我赶紧拉着我的室友一起做了这件事。她说,为什么是今天?我说我们必须发布它,不管怎样,我要那个头衔。因为我想要一切都是由AI生成的,没有任何人为干预,连编辑也不例外,一切都必须是生成的,它确实做到了。尽管那是一个相当糟糕的播客,但你可以看到它有可能变成一种新的娱乐形式。
Alessio:是的,我很好奇这些模型将如何允许相同的IP在不同格式中重用。我一直在看Amazon上的Fallout电视剧。我喜欢Fallout系列游戏,但自从《Like a New Vegas》发布以来已经过去了十年,直到他们真正制作了一部关于它的电视节目。如果拥有模型的IP所有者,比如NPC等,能够重新利用这些内容,那就有趣了。这是视频游戏,这是电视剧,这是动漫,这是YouTube短视频版本,诸如此类。我认为有大量的粉丝需求。你在同人小说界也能看到这一点,人们总是为同一个系列创作新的作品,比如《哈利·波特》,只是为了有更多的东西可读。所以我很想知道这会对新的IP产生什么影响,特别是当成功的IP有这么多迭代时。
Nyla Worker: 我认为在扩展IP方面还有很多事情要做。这让我感到非常兴奋。比如说,你花了数年时间制作一个游戏,为什么不使用AI对其进行修改,以延长其生命周期呢?我认为,随着AI角色的加入,修改将成为一个巨大的领網域。显然,这里存在一个知识产权的争论,我不太想深入讨论这个问题,因为这涉及到很多复杂的情况。未来几年肯定会有大量的法律诉讼来解决这些问题。但我认为,最终你会有一个非常有趣的未来,你可以与你喜欢的角色交流,与他们冒险,如果虚拟世界变得更加普遍,你就可以做到这一点。我加入Convai的原因之一就是我想与爱因斯坦交谈,和他一起散步,就像我和我的物理教授那样。当然这只是其中一件事情,但当你能够创造这样的事物时,这个世界会是什么样子呢?也许还可以与我最喜欢的科幻角色交谈。
Alessio:尤其是对于那些拥有大量训练数据的新角色来说更是如此。比如Sean Carroll,我希望能随时有Sean Carroll来解释所有这些东西。他读了很多书,参加了很多播客,所以有很多可以用来训练的数据,但现在我只能听他的播客。
Nyla Worker: 令人兴奋的是,你将拥有这个人的官方授权实体。比如这个大语言模型是由X人批准的。这样,即使你不是直接与Jensen交谈,你也知道你是在与经过授权的Jensen Huang交谈。你会觉得更放心,因为这样你接收的知识就是他们提供的知识。爱因斯坦的问题在于我不知道他是否会授权我的虚拟生成。然后我们讨论了IAC,但这并没有……
Alessio:我觉得,这些传奇物理学家生活在一个非常疯狂的时代,比如20世纪初到中期,那时候经历了两次世界大战,发生了各种疯狂的事情。将这些经历建模进去将会非常有趣。
Nyla Worker: 确实,那些书籍使我进入了物理学的世界。那时我是个优秀的计算机科学家,18岁时就已经做了很多编程,物理学从他们的角度来看显得如此酷,读了他们的书之后,我觉得,好吧,我要试试这个,但遗憾的是,我无法复制他们的一些成就。
Alessio:这对任何人来说都很难。我们知道我们已经占用了你很长时间,但我们聊了很多。还有什么遗漏的地方,或者你想要向观众传达的信息吗?如果你想招聘团队成员或者其他什么,都可以告诉我们。
Nyla Worker: 如果有人对AI角色非常感兴趣,请联系我。你可以在LinkedIn上找到我,或者发邮件给我。我的私人邮箱是[email protected]。所以,如果你对3D角色感兴趣,或者对合成数据好奇的话,请联系我。我在这一领網域花费了很长时间,所以我可以与你探讨这个话题。
Alessio:太好了,Naila,谢谢你今天的分享。
Nyla Worker: 好的,保重,再见。
原文章:Efficiency is Coming: 3000x Faster, Cheaper, Better AI Inference from Hardware Improvements, Quantization, and Synthetic Data Distillation
https://www.latent.space/p/nyla
编译:Juan Wang
-----------
END
点击下方卡片,关注管理智慧
喜欢这篇文章
请为我点赞和在看
>