本地部署 vLLM 0.8.5 大模型运行环境

在 Ubuntu 下“一步一步”安装 vLLM 0.8.5 大模型运行环境，核心是把 CUDA → PyTorch → vLLM-whl → flash-attn 四条链对齐。下面给出最简可复现的完整流程（已验证可用于 DeepSeek-OCR、Qwen3-235B-FP8 等主流模型）。

1. 系统前提检查

组件	最低要求
OS	Ubuntu 20.04/22.04（x86_64）
GPU	Compute Capability ≥ 7.0（T4、RTX20/30/40、A100、H100…）
CUDA	11.8 或 12.1（建议与 whl 后缀一致）
Python	3.9–3.12（推荐 3.12）

# 查看 CUDA 版本，决定后续 whl 文件名
nvcc --version | grep release
nvidia-smi                # 确认驱动已装好

如果nvidia-cuda-toolkit未安装，执行如下命令安装，安装完再查询是否安装成功。

apt install nvidia-cuda-toolkit

2. 创建隔离环境（conda 示例）

conda create -n vllm085 python=3.12 -y
conda activate vllm085

# 如未安装 conda，先执行：
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && bash Miniconda3-latest-Linux-x86_64.sh -b

3. 安装匹配版 PyTorch

以下给出两条最常见 CUDA 链，二选一即可。

(1) CUDA 11.8 链（官方推荐）

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
            --index-url https://download.pytorch.org/whl/cu118

(2) CUDA 12.1 链

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
            --index-url https://download.pytorch.org/whl/cu121

4. 下载并安装 vLLM 0.8.5 预编译 whl

whl 命名规则：vllm-0.8.5+cu<ver>-cp38-abi3-manylinux1_x86_64.whl

你的 CUDA	应下载文件名
11.8	`vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl`
12.1	`vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl`

# 以 CUDA 12.1 为例
wget https://github.com/vllm-project/vllm/releases/download/v0.8.5/vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl
pip install vllm-0.8.5+cu121-cp38-abi3-manylinux1_x86_64.whl

5. 安装 flash-attn（高速注意力）

# 如网络慢可改用国内源
pip install flash-attn==2.7.3 --no-build-isolation

若编译失败，可直接下载对应 CUDA/torch/python 版本的预编译 wheel：
https://github.com/Dao-AILab/flash-attention/releases/tag/v2.7.3

6. 验证安装

python - <<'PY'
import torch, vllm
print("Torch:", torch.__version__, torch.cuda.is_available())
print("vLLM :", vllm.__version__)
PY

应看到 vLLM : 0.8.5 且 torch.cuda.is_available()==True 即成功。

7. 运行示例（可选）

# 以 DeepSeek-OCR 为例
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
pip install -r requirements.txt
python inference.py --model deepseek-ai/DeepSeek-OCR-7B --image test.png

常见坑速查

驱动/CUDA 不匹配：whl 后缀与 nvcc 版本务必一致。
flash-attn 编译卡死：用预编译 wheel 或降低版本。
transformers 版本冲突：vLLM 0.8.5 要求 transformers ≥4.51.1，可 pip install -U transformers。
内存不足：启动时加 --gpu-memory-utilization 0.9 或减小 --max-model-len。

#技术支持 #本地模型

#vllm

本地部署 vLLM 0.8.5 大模型运行环境

http://localhost:8090//archives/1767496271788

作者

昊昱天合

发布于

2026年01月04日

更新于

2026年01月04日

许可协议

本地构建Deepseek-OCR运行环境上一篇

构建自己的Manus 下一篇