本地部署 vLLM 0.8.5 大模型运行环境
在 Ubuntu 下“一步一步”安装 vLLM 0.8.5 大模型运行环境,核心是把 CUDA → PyTorch → vLLM-whl → flash-attn 四条链对齐。下面给出最简可复现的完整流程(已验证可用于 DeepSeek-OCR、Qwen3-235B-FP8 等主流模型)。

1. 系统前提检查
# 查看 CUDA 版本,决定后续 whl 文件名
nvcc --version | grep release
nvidia-smi # 确认驱动已装好如果nvidia-cuda-toolkit未安装,执行如下命令安装,安装完再查询是否安装成功。
apt install nvidia-cuda-toolkit2. 创建隔离环境(conda 示例)
conda create -n vllm085 python=3.12 -y
conda activate vllm085# 如未安装 conda,先执行:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && bash Miniconda3-latest-Linux-x86_64.sh -b3. 安装匹配版 PyTorch
以下给出两条最常见 CUDA 链,二选一即可。
(1) CUDA 11.8 链(官方推荐)
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
--index-url https://download.pytorch.org/whl/cu118(2) CUDA 12.1 链
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
--index-url https://download.pytorch.org/whl/cu1214. 下载并安装 vLLM 0.8.5 预编译 whl
whl 命名规则:vllm-0.8.5+cu<ver>-cp38-abi3-manylinux1_x86_64.whl
# 以 CUDA 12.1 为例
wget https://github.com/vllm-project/vllm/releases/download/v0.8.5/vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl
pip install vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl5. 安装 flash-attn(高速注意力)
# 如网络慢可改用国内源
pip install flash-attn==2.7.3 --no-build-isolation若编译失败,可直接下载对应 CUDA/torch/python 版本的预编译 wheel:
https://github.com/Dao-AILab/flash-attention/releases/tag/v2.7.3
6. 验证安装
python - <<'PY'
import torch, vllm
print("Torch:", torch.__version__, torch.cuda.is_available())
print("vLLM :", vllm.__version__)
PY应看到 vLLM : 0.8.5 且 torch.cuda.is_available()==True 即成功。
7. 运行示例(可选)
# 以 DeepSeek-OCR 为例
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
pip install -r requirements.txt
python inference.py --model deepseek-ai/DeepSeek-OCR-7B --image test.png常见坑速查
驱动/CUDA 不匹配:whl 后缀与
nvcc版本务必一致。flash-attn 编译卡死:用预编译 wheel 或降低版本。
transformers 版本冲突:vLLM 0.8.5 要求 transformers ≥4.51.1,可
pip install -U transformers。内存不足:启动时加
--gpu-memory-utilization 0.9或减小--max-model-len。
本地部署 vLLM 0.8.5 大模型运行环境
http://localhost:8090//archives/1767496271788