大模型Linux部署从零开始:环境搭建与模型运行指南

大模型Linux部署从零开始:环境搭建与模型运行指南

如果你手头有一台带NVIDIA显卡的Linux服务器,想把它变成能在本地运行大模型的推理机,这篇文章就是为你准备的。
本文假设你完全没有AI或深度学习经验,只要求会打开终端、复制粘贴命令。
我会从硬件检查开始,一步步带你完成整个大模型Linux部署流程。

1. 部署前的硬件与系统检查

在动手之前,先确认几件事:

  • 显卡与驱动:运行大模型至少需要8GB显存(以7B模型为例)。执行 nvidia-smi 查看驱动版本和显存。如果提示命令不存在,说明NVIDIA驱动未安装。
  • 操作系统:推荐Ubuntu 20.04或22.04 LTS,内核5.4以上。用 lsb_release -a 查看版本。
  • 磁盘空间:模型文件通常5~15GB,建议根分区剩余超过30GB。用 df -h 检查。
  • 网络:需要能正常访问GitHub、Hugging Face等源,下载依赖包和模型文件。

如果你的服务器是全新系统,请先通过SSH登录,并执行 sudo apt update && sudo apt upgrade -y 更新软件包。

2. NVIDIA驱动与CUDA环境安装

大模型依赖GPU进行并行计算,驱动和CUDA是基础。

2.1 安装NVIDIA驱动

推荐使用Ubuntu官方仓库的驱动,简单稳定:

sudo apt install nvidia-driver-535 -y
sudo reboot

重启后,运行 nvidia-smi 应能看到GPU信息。
如果安装失败,可尝试添加NVIDIA官方PPA:

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-535 -y

2.2 安装CUDA Toolkit(可选但推荐)

虽然Ollama自带CUDA,但后续可能用到其他工具。
下载CUDA 12.1:

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run --toolkit --silent --override

添加环境变量:

echo 'export PATH=/usr/local/cuda-12.1/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证:nvcc --version 应显示12.1。

避坑提醒:驱动和CUDA版本必须匹配。nvidia-smi 顶部显示的CUDA Version是指驱动支持的版本,nvcc 是编译器的版本,两者可以不同。
如果安装后冲突,可卸载驱动重装:sudo apt purge nvidia-*

3. 使用Ollama一键部署大模型

Ollama是目前最简单的大模型Linux部署工具,它自动处理环境依赖和GPU加速。

3.1 安装Ollama

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,启动服务并设置开机自启:

sudo systemctl enable ollama
sudo systemctl start ollama

3.2 下载并运行模型

以阿里的Qwen2.5 7B模型为例(约4.7GB),执行一条命令即可:

ollama pull qwen2.5:7b

下载完成后,启动交互式对话:

ollama run qwen2.5:7b

出现 >>> Send a message 提示后,输入“你好”测试。
如果想通过API调用,Ollama默认监听 http://localhost:11434,使用 curl 即可:

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "Linux系统的优点是什么?",
  "stream": false
}'

其他常用模型替换名称即可:llama3.1:8bmistral:7bgemma2:9b

避坑提醒

  • 如果显存不足(例如只有6GB),可尝试量化版本,如 qwen2.5:7b-q4_K_M(约4GB)。
  • 拉取模型时遇到超时,可设置代理:export http_proxy=http://你的代理:端口
  • 如果Ollama启动后无法访问,检查防火墙:sudo ufw allow 11434

4. 常见问题与高频错误解答

Q: nvidia-smi 提示“Failed to initialize NVML: Driver/library version mismatch”

A: 驱动模块与内核模块版本不一致。
执行 sudo apt install dkms 然后重新安装驱动,或者重启系统。

Q: ollama run 报错“no available GPU”

A: Docker或Ollama未正确识别显卡。
检查是否安装了nvidia-container-toolkit(Ollama自动处理,但Docker需手动)。
如果是裸机Ollama,确保 nvidia-smi 正常。

Q: 模型回复非常慢

A: 检查显存占用,nvidia-smi 中查看GPU利用率。
如果利用率低,可能是CPU瓶颈;
如果显存爆满,换小模型或量化版本。

Q: 拉取模型时卡在“pulling manifest”

A: 网络问题。
ollama rm 模型名 删除缓存,换国内源(如 ollama pull qwen2.5:7b --host http://mirror.a.com)或使用代理。

5. 验证效果:从命令行到生产服务

部署完成后,除了聊天测试,还可以用脚本批量验证:

#!/bin/bash
# 创建文件 test.sh
for i in {1..3}; do
  curl -s http://localhost:11434/api/generate -d '{
    "model": "qwen2.5:7b",
    "prompt": "用一句话介绍Linux",
    "stream": false
  }' | jq -r '.response'
  echo "---"
done

检查服务稳定性:运行 ollama ps 查看当前加载的模型,用 ollama stop 模型名 手动卸载。

集成到Web服务:可以使用Open WebUI(前身是Ollama Web UI)提供图形界面:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问 http://服务器IP:3000 注册账号即可。

写在最后

本文的大模型Linux部署方法经过多台服务器验证,从驱动安装到Ollama运行,每一步都给出了可复现的命令。
如果你在操作中遇到其他异常,建议先检查日志:journalctl -u ollama -f
按本文流程完整执行一遍后,你就可以在自己的Linux服务器上轻松运行主流大模型了。
更重要的是,你可以根据硬件情况灵活调整模型版本和量化方式,充分释放你的GPU性能。

分享到:
上一篇
LLM服务器部署:从零开始部署LLM服务器
下一篇
本地大模型Ollama安装与使用指南:零基础也能上手
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意