今天小編分享的互聯網經驗:微軟推ZeRO++新系統:減少大模型訓練時間和成本,歡迎閲讀。
微軟研究人員推出了名為 ZeRO++ 的新系統,用于優化訓練大型 AI 模型,以應對高數據傳輸開銷和有限帶寬的難題。
ZeRO++ 建立在現有的 ZeRO 優化的基礎上,并提供增強的通信策略,以提高訓練效率,減少訓練時間和成本。
像 Turing-NLG、ChatGPT 和 GPT-4 這樣的大型模型的訓練需要跨多個 GPU 設備占用大量内存和計算資源。DeepSpeed 開發的 ZeRO++ 引入了通信優化策略,以克服在每個 GPU 上批量大小較小時或在低帶寬集群上進行訓練時 ZeRO 的限制。
ZeRO 優化系列包括 ZeRO-Inference,它使用 GPU 的集體内存和計算能力,将模型狀态分割在多個 GPU 之間。然而,在訓練過程中,ZeRO 可能會產生較高的通信開銷。ZeRO++ 通過整合三組通信優化來解決這個問題 : 量化權重通信(qwZ)、分層權重分割 ( hpZ ) 和量化梯度通信 ( qgZ ) 。
為了減少參數通信量,ZeRO++ 對權重進行量化,利用基于塊的量化方法來保持訓練精度。這種優化的量化過程比基本量化更快更準确。為了在反向傳播過程中盡量減少通信開銷,ZeRO++ 通過在每台機器上保持完整的模型副本,以 GPU 内存換取通信。梯度通信方面,ZeRO++ 引入了一種新的量化梯度通信範式 qgZ,可以減少跨節點的流量和延遲。
這些通信優化大大減少了通信量。與 ZeRO 相比,ZeRO++ 實現了減少高達 4 倍的通信量,提高了訓練吞吐量和效率。當在每個 GPU 上使用小批量大小時,在高帶寬集群中,ZeRO++ 相比 ZeRO-3 的吞吐量提高了 28% 至 36%。在低帶寬集群中,與 ZeRO-3 相比,ZeRO++ 實現了平均 2 倍的加速,使得大模型訓練在更多種類的集群上更為可行。
ZeRO++ 不僅限于訓練場景,還可應用于對話模型中使用的人類反饋強化學習(RLHF)訓練。通過将 ZeRO++ 與 DeepSpeed-Chat 集成,RLHF 訓練可以獲得更好的生成和訓練吞吐量,生成吞吐量提高了高達 2.25 倍,訓練吞吐量提高了 1.26 倍,超過了 ZeRO。
DeepSpeed 已經發布了 ZeRO++,以使大型模型的訓練在 AI 社區更加高效和可訪問。該系統旨在加快訓練速度,減少通信開銷,并實現更大的批量大小,從而節省時間和資源。研究人員和實踐者可以利用 ZeRO++ 更有效地訓練像 ChatGPT 這樣的模型,并在 AI 領網域探索新的可能性。
來源:站長之家