DeepSeek大模型本地部署2026最新完整教程
最近很多朋友问我怎么在自家服务器上跑DeepSeek模型,既能省钱又能保护数据隐私。
其实DeepSeek大模型本地部署2026最新完整教程并没有想象中复杂,只要按顺序走完下面几步,零基础也能成功跑起来。
第一步:确认你的硬件够不够用
DeepSeek有不同尺寸的模型,本地部署建议先看自己服务器的配置。
最核心的是显存(N卡)或内存(CPU推理):
- 7B模型:FP16推理需要约14GB显存,量化到4bit后只需要6GB左右。
- 14B模型:FP16约28GB,4bit约10GB。
- 67B模型:没有专业显卡不太推荐本地跑。
如果你用的是云服务器,建议选带V100(16GB)或更高显存的实例。如果显存不够,优先用4bit量化版本,体积小很多,效果损失可接受。
另外磁盘空间要留出至少两倍模型体积,因为下载和解压会暂存临时文件。
内存建议16GB起步,操作系统推荐Ubuntu 22.04(其他Linux发行版也可以)。
第二步:安装必须的软件环境
DeepSeek官方推荐用Hugging Face的Transformers库调用模型,底层依赖PyTorch。
在终端依次执行:
# 更新包管理器
sudo apt update && sudo apt upgrade -y
# 安装Python3与pip
sudo apt install python3 python3-pip -y
# 安装CUDA(以CUDA 12.1为例,根据显卡驱动版本调整)
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run --silent --toolkit
# 配置环境变量(加到 ~/.bashrc 末尾)
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
# 安装PyTorch(GPU版)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
# 安装transformers和加速库
pip3 install transformers accelerate bitsandbytes
特别注意: CUDA版本必须与PyTorch匹配,否则报错。
如果显卡驱动版本较旧,先用 nvidia-smi 查看支持的CUDA最高版本,再选择对应PyTorch。
第三步:下载DeepSeek模型文件
推荐使用Hugging Face的git-lfs下载,避免断线重试麻烦:
# 安装git-lfs
sudo apt install git-lfs -y
git lfs install
# 克隆DeepSeek-7B模型(4bit量化版本,体积小)
git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat-4bit
这个命令会下载整个模型文件夹(约4GB)。
如果网络慢,可以先用 export HF_ENDPOINT=https://hf-mirror.com 切换到国内镜像。
下载完成后进入目录:cd deepseek-llm-7b-chat-4bit。
第四步:编写推理脚本并启动服务
为了更灵活调用,我习惯写一个简单的Python脚本 run_deepseek.py:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "./deepseek-llm-7b-chat-4bit"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
while True:
prompt = input("请输入对话内容(输入exit退出):")
if prompt.lower() == "exit":
break
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
保存文件后执行:python3 run_deepseek.py。
看到提示符说明模型加载成功,输入中文即可对话。
如果想提供API给其他程序用,可以安装 uvicorn 配合FastAPI写一个接口,不过对零基础用户不推荐一开始就上API,先跑通交互验证再说。
踩坑记录:三个最容易遇到的问题
1. CUDA out of memory
显存不够时会直接报 RuntimeError: CUDA out of memory。解决方法是换成4bit量化模型,或者降低 max_new_tokens 值(如改为256)。如果显存确实不够,也可以改成CPU推理:device_map="cpu",但速度会慢很多。
2. libcudart.so 找不到
缺少CUDA运行时库。检查 LD_LIBRARY_PATH 是否包含CUDA的lib目录,或者重新执行 sudo ldconfig。
3. 模型加载时显示 trust_remote_code=True 警告
这是正常提示,因为DeepSeek模型使用了自定义代码,加上参数即可忽略。但注意不要从非官方渠道下载模型,避免安全风险。
验证是否真的部署成功
最简单的验证方法:运行脚本后随便问一句“你好”,看模型能否正常返回且有逻辑的回答。
如果返回空或者全是乱码,检查tokenizer是否正确加载。
另外可以用 nvidia-smi 查看显存占用是否增加,确认模型确实跑在GPU上。
如果你需要在生产环境公开API,建议加上防火墙限制只允许特定IP访问,并设置 max_new_tokens 上限防止恶意注入。
以上就是DeepSeek大模型本地部署2026最新完整教程的全部内容。
先按步骤完整执行,遇到报错优先看踩坑部分,大部分问题都能解决。
等跑通基础版本,再调整参数或加载其他微调模型就会顺手很多。