大模型Linux部署从零开始：环境搭建与模型运行指南

知识分享

2026-06-13 12:40

18 阅读

大模型Linux部署从零开始：环境搭建与模型运行指南

如果你手头有一台带NVIDIA显卡的Linux服务器，想把它变成能在本地运行大模型的推理机，这篇文章就是为你准备的。
本文假设你完全没有AI或深度学习经验，只要求会打开终端、复制粘贴命令。
我会从硬件检查开始，一步步带你完成整个大模型Linux部署流程。

1. 部署前的硬件与系统检查

在动手之前，先确认几件事：

显卡与驱动：运行大模型至少需要8GB显存（以7B模型为例）。执行 nvidia-smi 查看驱动版本和显存。如果提示命令不存在，说明NVIDIA驱动未安装。
操作系统：推荐Ubuntu 20.04或22.04 LTS，内核5.4以上。用 lsb_release -a 查看版本。
磁盘空间：模型文件通常5~15GB，建议根分区剩余超过30GB。用 df -h 检查。
网络：需要能正常访问GitHub、Hugging Face等源，下载依赖包和模型文件。

如果你的服务器是全新系统，请先通过SSH登录，并执行 sudo apt update && sudo apt upgrade -y 更新软件包。

2. NVIDIA驱动与CUDA环境安装

大模型依赖GPU进行并行计算，驱动和CUDA是基础。

2.1 安装NVIDIA驱动

推荐使用Ubuntu官方仓库的驱动，简单稳定：

sudo apt install nvidia-driver-535 -y
sudo reboot

重启后，运行 nvidia-smi 应能看到GPU信息。
如果安装失败，可尝试添加NVIDIA官方PPA：

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-driver-535 -y

2.2 安装CUDA Toolkit（可选但推荐）

虽然Ollama自带CUDA，但后续可能用到其他工具。
下载CUDA 12.1：

wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run --toolkit --silent --override

添加环境变量：

echo 'export PATH=/usr/local/cuda-12.1/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.1/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证：nvcc --version 应显示12.1。

避坑提醒：驱动和CUDA版本必须匹配。nvidia-smi 顶部显示的CUDA Version是指驱动支持的版本，nvcc 是编译器的版本，两者可以不同。
如果安装后冲突，可卸载驱动重装：sudo apt purge nvidia-*。

3. 使用Ollama一键部署大模型

Ollama是目前最简单的大模型Linux部署工具，它自动处理环境依赖和GPU加速。

3.1 安装Ollama

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，启动服务并设置开机自启：

sudo systemctl enable ollama
sudo systemctl start ollama

3.2 下载并运行模型

以阿里的Qwen2.5 7B模型为例（约4.7GB），执行一条命令即可：

ollama pull qwen2.5:7b

下载完成后，启动交互式对话：

ollama run qwen2.5:7b

出现 >>> Send a message 提示后，输入“你好”测试。
如果想通过API调用，Ollama默认监听 http://localhost:11434，使用 curl 即可：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "Linux系统的优点是什么？",
  "stream": false
}'

其他常用模型替换名称即可：llama3.1:8b、mistral:7b、gemma2:9b。

避坑提醒：

如果显存不足（例如只有6GB），可尝试量化版本，如 qwen2.5:7b-q4_K_M（约4GB）。
拉取模型时遇到超时，可设置代理：export http_proxy=http://你的代理:端口。
如果Ollama启动后无法访问，检查防火墙：sudo ufw allow 11434。

4. 常见问题与高频错误解答

Q: nvidia-smi 提示“Failed to initialize NVML: Driver/library version mismatch”

A: 驱动模块与内核模块版本不一致。
执行 sudo apt install dkms 然后重新安装驱动，或者重启系统。

Q: ollama run 报错“no available GPU”

A: Docker或Ollama未正确识别显卡。
检查是否安装了nvidia-container-toolkit（Ollama自动处理，但Docker需手动）。
如果是裸机Ollama，确保 nvidia-smi 正常。

Q: 模型回复非常慢

A: 检查显存占用，nvidia-smi 中查看GPU利用率。
如果利用率低，可能是CPU瓶颈；
如果显存爆满，换小模型或量化版本。

Q: 拉取模型时卡在“pulling manifest”

A: 网络问题。
先 ollama rm 模型名 删除缓存，换国内源（如 ollama pull qwen2.5:7b --host http://mirror.a.com）或使用代理。

5. 验证效果：从命令行到生产服务

部署完成后，除了聊天测试，还可以用脚本批量验证：

#!/bin/bash
# 创建文件 test.sh
for i in {1..3}; do
  curl -s http://localhost:11434/api/generate -d '{
    "model": "qwen2.5:7b",
    "prompt": "用一句话介绍Linux",
    "stream": false
  }' | jq -r '.response'
  echo "---"
done

检查服务稳定性：运行 ollama ps 查看当前加载的模型，用 ollama stop 模型名 手动卸载。

集成到Web服务：可以使用Open WebUI（前身是Ollama Web UI）提供图形界面：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway --name open-webui --restart always ghcr.io/open-webui/open-webui:main

访问 http://服务器IP:3000 注册账号即可。

写在最后

本文的大模型Linux部署方法经过多台服务器验证，从驱动安装到Ollama运行，每一步都给出了可复现的命令。
如果你在操作中遇到其他异常，建议先检查日志：journalctl -u ollama -f。
按本文流程完整执行一遍后，你就可以在自己的Linux服务器上轻松运行主流大模型了。
更重要的是，你可以根据硬件情况灵活调整模型版本和量化方式，充分释放你的GPU性能。

LLM服务器部署：从零开始部署LLM服务器

本地大模型Ollama安装与使用指南：零基础也能上手

大模型Linux部署从零开始：环境搭建与模型运行指南

1. 部署前的硬件与系统检查

2. NVIDIA驱动与CUDA环境安装

2.1 安装NVIDIA驱动

2.2 安装CUDA Toolkit（可选但推荐）

3. 使用Ollama一键部署大模型

3.1 安装Ollama

3.2 下载并运行模型

4. 常见问题与高频错误解答

5. 验证效果：从命令行到生产服务

写在最后

文章分类

高考专属福利来袭｜凭准考证免费领香港 CN2 云服务器