LLM服务器部署:从零开始部署LLM服务器
部署LLM服务器需要什么硬件?
很多人一听说“大模型”就觉得需要上万块的显卡,其实现在不少开源模型在消费级显卡上也能跑。
起步阶段建议满足以下条件:
- 显存:7B~8B参数的模型需要至少8GB显存(如RTX 3060/4060),13B模型推荐12GB以上,70B模型则需要多卡或48GB以上显存。
- 内存:16GB起步,32GB以上更稳,因为加载模型时CPU也会占用大量内存。
- 硬盘:模型文件很大,一个7B模型大约4~8GB,建议系统盘预留50GB空间,另外准备一个独立数据盘存放模型文件。
- 网络:下载模型需要稳定网络,国内用户建议配置代理或使用镜像站。
如果你没有独立显卡,也可以只使用CPU推理,但速度会慢很多(每秒几个token),仅适合测试或低并发场景。
搭建运行环境的三个关键步骤
环境准备是LLM服务器部署最容易出错的地方,下面按顺序操作。
1. 安装Python和虚拟环境
建议使用Python 3.10或3.11。
用pyenv或系统包管理器安装:
# Ubuntu/Debian
sudo apt update && sudo apt install python3 python3-pip -y
python3 --version
然后创建虚拟环境,避免依赖冲突:
python3 -m venv llm_env
source llm_env/bin/activate
2. 安装推理框架
这里推荐两种常见方案,二选一即可:
- Ollama(适合新手,开箱即用)
curl -fsSL https://ollama.com/install.sh | sh
- vLLM(适合生产环境,支持高并发和多种加速功能)
pip install vllm
3. 验证CUDA(如果你有NVIDIA显卡)
确保驱动已安装:
nvidia-smi
看到GPU型号和驱动版本就对了。
如果报错,去NVIDIA官网下载对应驱动。
下载并加载开源模型
模型可以从Hugging Face下载,国内推荐使用镜像站点hf-mirror.com。
这里以Qwen2.5-7B-Instruct为例。
方式一:用Ollama直接拉取
Ollama会自动下载并管理模型:
ollama pull qwen2.5:7b
拉取完成后,启动服务:
ollama serve
方式二:用vLLM加载本地模型
先下载模型文件:
git lfs install
git clone https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct
然后启动vLLM服务:
python -m vllm.entrypoints.openai.api_server --model ./Qwen2.5-7B-Instruct --host 0.0.0.0 --port 8000
看到Uvicorn running on http://0.0.0.0:8000说明服务成功启动。
测试API接口
服务运行后,用curl发个请求验证:
curl -X POST http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "Qwen/Qwen2.5-7B-Instruct",
"messages": [{"role": "user", "content": "你好,请介绍LLM服务器部署的关键点"}],
"temperature": 0.7
}'
返回中包含"choices"字段就是正常。
如果Ollama,API地址不同:http://localhost:11434/api/chat,参数格式参考官方文档。
避坑指南与高频问题
- 显存不足:启动时加
--gpu-memory-utilization 0.8限制显存占用比例(vLLM)。Ollama默认已优化,但显存不够时会换CPU,此时可以改用量化版本模型(如Q4_K_M)。 - 模型加载慢:第一次加载会缓存,第二次更快。如果磁盘读写慢,考虑换SSD或NVMe。
- 端口被占用:先用
lsof -i :8000查看,然后指定其他端口。 - 中文乱码:确保终端和API请求都使用UTF-8编码。
- Hugging Face下载失败:设置镜像环境变量:
export HF_ENDPOINT=https://hf-mirror.com
最后
如果你正在处理LLM服务器部署,建议先按本文步骤完整执行,再根据自己的环境做微调;
遇到异常时优先回看避坑和高频问题部分。
从简单的Ollama开始,熟悉后再切换到vLLM处理更高并发。
部署成功后,就可以尝试接入自己的应用,体验大模型的服务能力了。