今天小编分享的互联网经验:苹果和英伟达合作,提升AI 大语言模型(LLM)的推理速度,欢迎阅读。
苹果在 AI 领網域也在不断努力,希望做的更好。苹果和英伟达合作,宣布通过开源 Recurrent Drafter(ReDrafter)技术,这是一种推测解码方法,能够显著提升 AI 大语言模型(LLM)的推理速度。苹果公司表示 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架中,在 NVIDIA GPU 上,每秒生成 Tokens 速度最高提升 2.7 倍,有效降低了用户延迟和计算成本。在过去,创建大型语言模型的过程通常非常耗时和耗资源,企业常常需要购买大量的硬體设备,进而增加了运营成本。
苹果的机器学习研究人员指出,LLM 越来越多地用于驱动生产应用程式,提高推理效率对降低计算成本和用户延迟至关重要。此次合作能够在降低延迟的同时减少所需硬體数量,带来更为经济的解决方案。苹果也表示他们正在考虑使用亚马逊的 Trainium2 芯片来提升模型训练效率,预计使用 Trainium2 进行预训练的效率将比现有的硬體提升 50%。