本地部署 vLLM 0.8.5 大模型运行环境

在 Ubuntu 下“一步一步”安装 vLLM 0.8.5 大模型运行环境,核心是把 CUDA → PyTorch → vLLM-whl → flash-attn 四条链对齐。下面给出最简可复现的完整流程(已验证可用于 DeepSeek-OCR、Qwen3-235B-FP8 等主流模型)。


1. 系统前提检查

组件

最低要求

OS

Ubuntu 20.04/22.04(x86_64)

GPU

Compute Capability ≥ 7.0(T4、RTX20/30/40、A100、H100…)

CUDA

11.8 或 12.1(建议与 whl 后缀一致)

Python

3.9–3.12(推荐 3.12)

# 查看 CUDA 版本,决定后续 whl 文件名
nvcc --version | grep release
nvidia-smi                # 确认驱动已装好

如果nvidia-cuda-toolkit未安装,执行如下命令安装,安装完再查询是否安装成功。

apt install nvidia-cuda-toolkit

2. 创建隔离环境(conda 示例)

conda create -n vllm085 python=3.12 -y
conda activate vllm085

# 如未安装 conda,先执行:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && bash Miniconda3-latest-Linux-x86_64.sh -b

3. 安装匹配版 PyTorch

以下给出两条最常见 CUDA 链,二选一即可。

(1) CUDA 11.8 链(官方推荐)

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
            --index-url https://download.pytorch.org/whl/cu118

(2) CUDA 12.1 链

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
            --index-url https://download.pytorch.org/whl/cu121

4. 下载并安装 vLLM 0.8.5 预编译 whl

whl 命名规则:vllm-0.8.5+cu<ver>-cp38-abi3-manylinux1_x86_64.whl

你的 CUDA

应下载文件名

11.8

vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl

12.1

vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl

# 以 CUDA 12.1 为例
wget https://github.com/vllm-project/vllm/releases/download/v0.8.5/vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl
pip install vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl

5. 安装 flash-attn(高速注意力)

# 如网络慢可改用国内源
pip install flash-attn==2.7.3 --no-build-isolation

若编译失败,可直接下载对应 CUDA/torch/python 版本的预编译 wheel:
https://github.com/Dao-AILab/flash-attention/releases/tag/v2.7.3


6. 验证安装

python - <<'PY'
import torch, vllm
print("Torch:", torch.__version__, torch.cuda.is_available())
print("vLLM :", vllm.__version__)
PY

应看到 vLLM : 0.8.5torch.cuda.is_available()==True 即成功。


7. 运行示例(可选)

# 以 DeepSeek-OCR 为例
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
pip install -r requirements.txt
python inference.py --model deepseek-ai/DeepSeek-OCR-7B --image test.png

常见坑速查

  1. 驱动/CUDA 不匹配:whl 后缀与 nvcc 版本务必一致。

  2. flash-attn 编译卡死:用预编译 wheel 或降低版本。

  3. transformers 版本冲突:vLLM 0.8.5 要求 transformers ≥4.51.1,可 pip install -U transformers

  4. 内存不足:启动时加 --gpu-memory-utilization 0.9 或减小 --max-model-len


本地部署 vLLM 0.8.5 大模型运行环境
http://localhost:8090//archives/1767496271788
作者
昊昱天合
发布于
2026年01月04日
更新于
2026年01月04日
许可协议