今天小編分享的互聯網經驗:蘋果和英偉達合作,提升AI 大語言模型(LLM)的推理速度,歡迎閱讀。
蘋果在 AI 領網域也在不斷努力,希望做的更好。蘋果和英偉達合作,宣布通過開源 Recurrent Drafter(ReDrafter)技術,這是一種推測解碼方法,能夠顯著提升 AI 大語言模型(LLM)的推理速度。蘋果公司表示 ReDrafter 已集成到 NVIDIA TensorRT-LLM 推理加速框架中,在 NVIDIA GPU 上,每秒生成 Tokens 速度最高提升 2.7 倍,有效降低了用戶延遲和計算成本。在過去,創建大型語言模型的過程通常非常耗時和耗資源,企業常常需要購買大量的硬體設備,進而增加了運營成本。
蘋果的機器學習研究人員指出,LLM 越來越多地用于驅動生產應用程式,提高推理效率對降低計算成本和用戶延遲至關重要。此次合作能夠在降低延遲的同時減少所需硬體數量,帶來更為經濟的解決方案。蘋果也表示他們正在考慮使用亞馬遜的 Trainium2 芯片來提升模型訓練效率,預計使用 Trainium2 進行預訓練的效率将比現有的硬體提升 50%。