大模型Linux部署从零开始:环境搭建与模型运行指南
大模型Linux部署从零开始:环境搭建与模型运行指南
如果你手头有一台带NVIDIA显卡的Linux服务器,想把它变成能在本地运行大模型的推理机,这篇文章就是为你准备的。
本文假设你完全没有AI或深度学习经验,只要求会打开终端、复制粘贴命令。
我会从硬件检查开始,一步步带你完成整个大模型Linux部署流程。
1. 部署前的硬件与系统检查
在动手之前,先确认几件事:
- 显卡与驱动:运行大模型至少需要8GB显存(以7B模型为例)。执行
nvidia-smi查看驱动版本和显存。如果提示命令不存在,说明NVIDIA驱动未安装。 - 操作系统:推荐Ubuntu 20.04或22.04 LTS,内核5.4以上。用
lsb_release -a查看版本。 - 磁盘空间:模型文件通常5~15GB,建议根分区剩余超过30GB。用
df -h检查。 - 网络:需要能正常访问GitHub、Hugging Face等源,下载依赖包和模型文件。
如果你的服务器是全新系统,请先通过SSH登录,并执行 sudo apt update && sudo apt upgrade -y 更新软件包。
2. NVIDIA驱动与CUDA环境安装
大模型依赖GPU进行并行计算,驱动和CUDA是基础。
2.1 安装NVIDIA驱动
推荐使用Ubuntu官方仓库的驱动,简单稳定:
sudo apt install nvidia-driver-535 -y
sudo reboot
重启后,运行 nvidia-smi 应能看到GPU信息。
如果安装失败,可尝试添加NVIDIA官方PPA:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-535 -y
2.2 安装CUDA Toolkit(可选但推荐)
虽然Ollama自带CUDA,但后续可能用到其他工具。
下载CUDA 12.1:
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run --toolkit --silent --override
添加环境变量:
echo 'export PATH=/usr/local/cuda-12.1/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
验证:nvcc --version 应显示12.1。
避坑提醒:驱动和CUDA版本必须匹配。nvidia-smi 顶部显示的CUDA Version是指驱动支持的版本,nvcc 是编译器的版本,两者可以不同。
如果安装后冲突,可卸载驱动重装:sudo apt purge nvidia-*。
3. 使用Ollama一键部署大模型
Ollama是目前最简单的大模型Linux部署工具,它自动处理环境依赖和GPU加速。
3.1 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
安装完成后,启动服务并设置开机自启:
sudo systemctl enable ollama
sudo systemctl start ollama
3.2 下载并运行模型
以阿里的Qwen2.5 7B模型为例(约4.7GB),执行一条命令即可:
ollama pull qwen2.5:7b
下载完成后,启动交互式对话:
ollama run qwen2.5:7b
出现 >>> Send a message 提示后,输入“你好”测试。
如果想通过API调用,Ollama默认监听 http://localhost:11434,使用 curl 即可:
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "Linux系统的优点是什么?",
"stream": false
}'
其他常用模型替换名称即可:llama3.1:8b、mistral:7b、gemma2:9b。
避坑提醒:
- 如果显存不足(例如只有6GB),可尝试量化版本,如
qwen2.5:7b-q4_K_M(约4GB)。 - 拉取模型时遇到超时,可设置代理:
export http_proxy=http://你的代理:端口。 - 如果Ollama启动后无法访问,检查防火墙:
sudo ufw allow 11434。
4. 常见问题与高频错误解答
Q: nvidia-smi 提示“Failed to initialize NVML: Driver/library version mismatch”
A: 驱动模块与内核模块版本不一致。
执行 sudo apt install dkms 然后重新安装驱动,或者重启系统。
Q: ollama run 报错“no available GPU”
A: Docker或Ollama未正确识别显卡。
检查是否安装了nvidia-container-toolkit(Ollama自动处理,但Docker需手动)。
如果是裸机Ollama,确保 nvidia-smi 正常。
Q: 模型回复非常慢
A: 检查显存占用,nvidia-smi 中查看GPU利用率。
如果利用率低,可能是CPU瓶颈;
如果显存爆满,换小模型或量化版本。
Q: 拉取模型时卡在“pulling manifest”
A: 网络问题。
先 ollama rm 模型名 删除缓存,换国内源(如 ollama pull qwen2.5:7b --host http://mirror.a.com)或使用代理。
5. 验证效果:从命令行到生产服务
部署完成后,除了聊天测试,还可以用脚本批量验证:
#!/bin/bash
# 创建文件 test.sh
for i in {1..3}; do
curl -s http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "用一句话介绍Linux",
"stream": false
}' | jq -r '.response'
echo "---"
done
检查服务稳定性:运行 ollama ps 查看当前加载的模型,用 ollama stop 模型名 手动卸载。
集成到Web服务:可以使用Open WebUI(前身是Ollama Web UI)提供图形界面:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name open-webui --restart always ghcr.io/open-webui/open-webui:main
访问 http://服务器IP:3000 注册账号即可。
写在最后
本文的大模型Linux部署方法经过多台服务器验证,从驱动安装到Ollama运行,每一步都给出了可复现的命令。
如果你在操作中遇到其他异常,建议先检查日志:journalctl -u ollama -f。
按本文流程完整执行一遍后,你就可以在自己的Linux服务器上轻松运行主流大模型了。
更重要的是,你可以根据硬件情况灵活调整模型版本和量化方式,充分释放你的GPU性能。