LLM服务器部署:从零开始部署LLM服务器

部署LLM服务器需要什么硬件?

很多人一听说“大模型”就觉得需要上万块的显卡,其实现在不少开源模型在消费级显卡上也能跑。
起步阶段建议满足以下条件:

  • 显存:7B~8B参数的模型需要至少8GB显存(如RTX 3060/4060),13B模型推荐12GB以上,70B模型则需要多卡或48GB以上显存。
  • 内存:16GB起步,32GB以上更稳,因为加载模型时CPU也会占用大量内存。
  • 硬盘:模型文件很大,一个7B模型大约4~8GB,建议系统盘预留50GB空间,另外准备一个独立数据盘存放模型文件。
  • 网络:下载模型需要稳定网络,国内用户建议配置代理或使用镜像站。

如果你没有独立显卡,也可以只使用CPU推理,但速度会慢很多(每秒几个token),仅适合测试或低并发场景。

搭建运行环境的三个关键步骤

环境准备是LLM服务器部署最容易出错的地方,下面按顺序操作。

1. 安装Python和虚拟环境

建议使用Python 3.10或3.11。
pyenv或系统包管理器安装:

# Ubuntu/Debian
sudo apt update && sudo apt install python3 python3-pip -y
python3 --version

然后创建虚拟环境,避免依赖冲突:

python3 -m venv llm_env
source llm_env/bin/activate

2. 安装推理框架

这里推荐两种常见方案,二选一即可:

  • Ollama(适合新手,开箱即用)
curl -fsSL https://ollama.com/install.sh | sh
  • vLLM(适合生产环境,支持高并发和多种加速功能)
pip install vllm

3. 验证CUDA(如果你有NVIDIA显卡)

确保驱动已安装:

nvidia-smi

看到GPU型号和驱动版本就对了。
如果报错,去NVIDIA官网下载对应驱动。

下载并加载开源模型

模型可以从Hugging Face下载,国内推荐使用镜像站点hf-mirror.com
这里以Qwen2.5-7B-Instruct为例。

方式一:用Ollama直接拉取

Ollama会自动下载并管理模型:

ollama pull qwen2.5:7b

拉取完成后,启动服务:

ollama serve

方式二:用vLLM加载本地模型

先下载模型文件:

git lfs install
git clone https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct

然后启动vLLM服务:

python -m vllm.entrypoints.openai.api_server --model ./Qwen2.5-7B-Instruct --host 0.0.0.0 --port 8000

看到Uvicorn running on http://0.0.0.0:8000说明服务成功启动。

测试API接口

服务运行后,用curl发个请求验证:

curl -X POST http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "Qwen/Qwen2.5-7B-Instruct",
  "messages": [{"role": "user", "content": "你好,请介绍LLM服务器部署的关键点"}],
  "temperature": 0.7
}'

返回中包含"choices"字段就是正常。
如果Ollama,API地址不同:http://localhost:11434/api/chat,参数格式参考官方文档。

避坑指南与高频问题

  • 显存不足:启动时加--gpu-memory-utilization 0.8限制显存占用比例(vLLM)。Ollama默认已优化,但显存不够时会换CPU,此时可以改用量化版本模型(如Q4_K_M)。
  • 模型加载慢:第一次加载会缓存,第二次更快。如果磁盘读写慢,考虑换SSD或NVMe。
  • 端口被占用:先用lsof -i :8000查看,然后指定其他端口。
  • 中文乱码:确保终端和API请求都使用UTF-8编码。
  • Hugging Face下载失败:设置镜像环境变量:
export HF_ENDPOINT=https://hf-mirror.com

最后

如果你正在处理LLM服务器部署,建议先按本文步骤完整执行,再根据自己的环境做微调;
遇到异常时优先回看避坑和高频问题部分。
从简单的Ollama开始,熟悉后再切换到vLLM处理更高并发。
部署成功后,就可以尝试接入自己的应用,体验大模型的服务能力了。

分享到:
上一篇
零基础玩转Agentic AI运维:从部署到自动排障全步骤
下一篇
大模型Linux部署从零开始:环境搭建与模型运行指南
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意