6.99元租H800，一鍵部署Llama3，有羊毛速來薅！

今天小編分享的科學經驗：6.99元租H800，一鍵部署Llama3，有羊毛速來薅！，歡迎閲讀。

猛然間，大模型圈掀起一股 " 降價風潮 "。

前腳，智譜、DeepSeek 等大模型廠商将 API 價格一降再降，輸入 100 萬 tokens 僅需 1 元。

緊接着，GPU 租賃的價格也被打了下來。

現在潞晨雲官方進行限時大額算力補貼，NVIDIA H800 的租用價格，低至6.99 元 / 卡 / 時；NVIDIA A800 為5.99 元 / 卡 / 時，4090 甚至低至1.39 元 / 卡 / 時。

不只有租賃服務，平台上還支持快速簡易部署 Llama 3 微調、訓練、推理。

其中在 64 卡 H100 集群上，經過 Colossal-AI 優化，相比微軟 + 英偉達方案，可提升 LLaMA3 70B 的訓練性能近 20%，推理性能也優于 vLLM 等方案。

Open-Sora 也能玩轉。

如上最新動向來自潞晨雲（https://cloud.luchentech.com）。

他們不僅将個人開發者、中小企業用户玩轉大模型的成本大幅降低，而且上手門檻也不高。

具體來看實操演示 ~

部署 Llama 3 微調訓練推理

潞晨雲提供一鍵部署功能，只需簡單操作即可快速啓動計算環境。

在最開始時需要先創建雲主機。比如對 Llama3 微調訓練，可在 8 卡 H800 上完成，在算力市場中選擇即可。

此處選擇 Colossal-llama3 訓練微調鏡像，單擊創建按鈕，創建雲主機。

确認當前路徑名，并修改 config 檔案，輸入教程中的 Llama3 訓練腳本，本腳本已預置已處理數據集為例進行微調。

首先編譯安裝 Colossal-AI，其次創建訓練需要的檔案夾，接着修改 hostfile，在鏡像中安裝 IP address 指令，查看鏡像内 IP 地址。輸入 IP address 指令将機内 IP 地址復制并更新到 hostfile 中，就完成了 Llama3 微調的全部流程。

如果是對 Llama 3 推理，可在雲主機上選擇單張 H800 作為算力資源。

Colossal-Inference 現已适配支持了 LLaMA-3 推理加速。

模型權重已準備好，無需額外安裝。然後運行生成腳本：

PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B" # huggingface or local model pathcd ColossalAI/examples/inference/colossalai run --nproc_per_node 1 llama_generation.py -m PRETRAINED_MODEL_PATH --max_length 80

進行多卡 TP 推理、如下例使用兩卡生成：

colossalai run --nproc_per_node 2 llama_generation.py -m PRETRAINED_MODEL_PATH --max_length 80 --tp_size 2

運行吞吐 Benchmark 測試：

PRETRAINED_MODEL_PATH="/root/notebook/common_data/Meta-Llama-3-8B"git pull # update example benchmark from branch feature/colossal-infercd ColossalAI/examples/inference/python benchmark_llama3.py -m llama3-8b -b 32 -s 128 -o 256 -p PRETRAINED_MODEL_PATH

單卡 H100 對 LLaMA3-8B 進行 Benchmark 結果與 vLLM 對比（例：輸入序列長度 128，輸出長度 256）。