LLM服务器部署：从零开始部署LLM服务器

知识分享

2026-06-13 12:00

14 阅读

部署LLM服务器需要什么硬件？

很多人一听说“大模型”就觉得需要上万块的显卡，其实现在不少开源模型在消费级显卡上也能跑。
起步阶段建议满足以下条件：

显存：7B～8B参数的模型需要至少8GB显存（如RTX 3060/4060），13B模型推荐12GB以上，70B模型则需要多卡或48GB以上显存。
内存：16GB起步，32GB以上更稳，因为加载模型时CPU也会占用大量内存。
硬盘：模型文件很大，一个7B模型大约4～8GB，建议系统盘预留50GB空间，另外准备一个独立数据盘存放模型文件。
网络：下载模型需要稳定网络，国内用户建议配置代理或使用镜像站。

如果你没有独立显卡，也可以只使用CPU推理，但速度会慢很多（每秒几个token），仅适合测试或低并发场景。

搭建运行环境的三个关键步骤

环境准备是LLM服务器部署最容易出错的地方，下面按顺序操作。

1. 安装Python和虚拟环境

建议使用Python 3.10或3.11。
用pyenv或系统包管理器安装：

# Ubuntu/Debian
sudo apt update && sudo apt install python3 python3-pip -y
python3 --version

然后创建虚拟环境，避免依赖冲突：

python3 -m venv llm_env
source llm_env/bin/activate

2. 安装推理框架

这里推荐两种常见方案，二选一即可：

Ollama（适合新手，开箱即用）

curl -fsSL https://ollama.com/install.sh | sh

vLLM（适合生产环境，支持高并发和多种加速功能）

pip install vllm

3. 验证CUDA（如果你有NVIDIA显卡）

确保驱动已安装：

nvidia-smi

看到GPU型号和驱动版本就对了。
如果报错，去NVIDIA官网下载对应驱动。

下载并加载开源模型

模型可以从Hugging Face下载，国内推荐使用镜像站点hf-mirror.com。
这里以Qwen2.5-7B-Instruct为例。

方式一：用Ollama直接拉取

Ollama会自动下载并管理模型：

ollama pull qwen2.5:7b

拉取完成后，启动服务：

ollama serve

方式二：用vLLM加载本地模型

先下载模型文件：

git lfs install
git clone https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct

然后启动vLLM服务：

python -m vllm.entrypoints.openai.api_server --model ./Qwen2.5-7B-Instruct --host 0.0.0.0 --port 8000

看到Uvicorn running on http://0.0.0.0:8000说明服务成功启动。

测试API接口

服务运行后，用curl发个请求验证：

curl -X POST http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "Qwen/Qwen2.5-7B-Instruct",
  "messages": [{"role": "user", "content": "你好，请介绍LLM服务器部署的关键点"}],
  "temperature": 0.7
}'

返回中包含"choices"字段就是正常。
如果Ollama，API地址不同：http://localhost:11434/api/chat，参数格式参考官方文档。

避坑指南与高频问题

显存不足：启动时加--gpu-memory-utilization 0.8限制显存占用比例（vLLM）。Ollama默认已优化，但显存不够时会换CPU，此时可以改用量化版本模型（如Q4_K_M）。
模型加载慢：第一次加载会缓存，第二次更快。如果磁盘读写慢，考虑换SSD或NVMe。
端口被占用：先用lsof -i :8000查看，然后指定其他端口。
中文乱码：确保终端和API请求都使用UTF-8编码。
Hugging Face下载失败：设置镜像环境变量：

export HF_ENDPOINT=https://hf-mirror.com

最后

如果你正在处理LLM服务器部署，建议先按本文步骤完整执行，再根据自己的环境做微调；
遇到异常时优先回看避坑和高频问题部分。
从简单的Ollama开始，熟悉后再切换到vLLM处理更高并发。
部署成功后，就可以尝试接入自己的应用，体验大模型的服务能力了。

零基础玩转Agentic AI运维：从部署到自动排障全步骤

大模型Linux部署从零开始：环境搭建与模型运行指南