旧电脑改造低成本AI推理服务器：手把手教你用旧电脑搭建低成本

知识分享

2026-06-01 04:00

66 阅读

选对旧电脑硬件与系统，打好基础

很多人手头都有一两台吃灰的旧电脑，改造它的第一步不是盲目装系统，而是先确认硬件是否满足AI推理的最低要求。核心关注三点：内存、显卡（或核显）、存储空间。
AI推理主要依赖计算单元，如果旧电脑有4GB以上内存、一块支持CUDA的NVIDIA独立显卡（比如GTX 960以上），或者至少Intel 8代以上的核显，就能跑一些中小型模型。
没有独立显卡也别慌，CPU推理也能用，只是速度慢一些。

硬件确认后，推荐安装 Ubuntu 22.04 LTS 桌面版或服务器版。
用UltraISO或Rufus制作启动盘，开机进入BIOS设置U盘第一启动项，按提示完成安装。
安装过程中选择“最小安装”可以节省空间，后续需要什么再手动补。

部署推理框架：从ollama到vllm

对于零基础用户，建议从 ollama 入手，它封装了模型下载、运行和调用，几乎一条命令搞定。
打开终端执行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后拉取一个轻量模型测试，比如 qwen2:0.5b（千问0.5B版本，约300MB）：

ollama pull qwen2:0.5b

然后启动交互式对话：

ollama run qwen2:0.5b

输入任意中文问题，如果模型能正常回答，说明推理服务器已跑通。
如果旧显卡较老（不支持CUDA 12），可以换用 llama.cpp 或 vllm 的CPU版本，性能会低一些但兼容性更好。

配置远程调用：让其他设备也能用

本地能跑只是第一步，真正的“服务器”需要支持局域网内其他设备调用。
ollama默认只监听127.0.0.1，需要改为0.0.0.0。
编辑系统服务文件：

sudo systemctl edit ollama.service

在打开的文件中添加以下内容：

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

保存并重启服务：

sudo systemctl daemon-reload
sudo systemctl restart ollama

现在通过 http://旧电脑IP:11434 就能调用推理接口了。
测试一下（在另一台电脑上执行）：

curl http://192.168.1.100:11434/api/generate -d '{
  "model": "qwen2:0.5b",
  "prompt": "你好",
  "stream": false
}'

返回包含response字段的JSON即为成功。

高频问题与避坑指南

问题1：拉取模型时提示“no space left on device”
解决方法：检查磁盘剩余空间，至少预留5GB以上。如果系统盘不够，可以手动指定模型下载路径到外接存储：

ollama set modeldir /mnt/usbdrive/models

问题2：启动ollama服务时端口被占
用 sudo lsof -i :11434 查看哪个进程在用，然后修改ollama监听端口（将上面OLLAMA_HOST改为其他端口）。

问题3：推理速度极慢
先确认是否用了CPU模式。用 ollama list 查看模型列表，然后运行模型时添加 --num-gpu 1 参数尝试强制使用GPU。如果显卡不支持，可以考虑换成更小的模型如 tinyllama 或 phi-2。

性能验证与进阶优化

部署完成后，你需要确认推理服务器能满足实际使用需求。
执行一个测试压力脚本（比如连续发送20次请求），测量平均响应时间。
对于0.5B模型，CPU推理通常每问耗时2-5秒，GPU推理可缩减到0.5秒以内。
如果希望提高吞吐量，可以改用 vllm 并开启 continuous batching。
但vllm配置稍复杂，建议先跑通ollama再逐步进阶。

最后，定期检查系统资源占用：用 htop 看CPU和内存，用 nvidia-smi 看显卡占用。
如果内存长期高于80%，考虑增加swap分区或替换更大内存条。
旧电脑改造的低成本AI推理服务器虽然性能有限，但对于个人学习、测试和轻量级应用完全够用，这也是变废为宝的最佳实践之一。

热门AI工具合集运维必备：年运维必备的AI工具合集

大模型微调零基础入门教程：从环境搭建到跑通第一个模型

选对旧电脑硬件与系统，打好基础

部署推理框架：从ollama到vllm

配置远程调用：让其他设备也能用

高频问题与避坑指南

性能验证与进阶优化

文章分类

机房迁移升级通知