旧电脑改造低成本AI推理服务器:手把手教你用旧电脑搭建低成本
选对旧电脑硬件与系统,打好基础
很多人手头都有一两台吃灰的旧电脑,改造它的第一步不是盲目装系统,而是先确认硬件是否满足AI推理的最低要求。核心关注三点:内存、显卡(或核显)、存储空间。
AI推理主要依赖计算单元,如果旧电脑有4GB以上内存、一块支持CUDA的NVIDIA独立显卡(比如GTX 960以上),或者至少Intel 8代以上的核显,就能跑一些中小型模型。
没有独立显卡也别慌,CPU推理也能用,只是速度慢一些。
硬件确认后,推荐安装 Ubuntu 22.04 LTS 桌面版或服务器版。
用UltraISO或Rufus制作启动盘,开机进入BIOS设置U盘第一启动项,按提示完成安装。
安装过程中选择“最小安装”可以节省空间,后续需要什么再手动补。
部署推理框架:从ollama到vllm
对于零基础用户,建议从 ollama 入手,它封装了模型下载、运行和调用,几乎一条命令搞定。
打开终端执行以下命令:
curl -fsSL https://ollama.com/install.sh | sh
安装完成后拉取一个轻量模型测试,比如 qwen2:0.5b(千问0.5B版本,约300MB):
ollama pull qwen2:0.5b
然后启动交互式对话:
ollama run qwen2:0.5b
输入任意中文问题,如果模型能正常回答,说明推理服务器已跑通。
如果旧显卡较老(不支持CUDA 12),可以换用 llama.cpp 或 vllm 的CPU版本,性能会低一些但兼容性更好。
配置远程调用:让其他设备也能用
本地能跑只是第一步,真正的“服务器”需要支持局域网内其他设备调用。
ollama默认只监听127.0.0.1,需要改为0.0.0.0。
编辑系统服务文件:
sudo systemctl edit ollama.service
在打开的文件中添加以下内容:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
保存并重启服务:
sudo systemctl daemon-reload
sudo systemctl restart ollama
现在通过 http://旧电脑IP:11434 就能调用推理接口了。
测试一下(在另一台电脑上执行):
curl http://192.168.1.100:11434/api/generate -d '{
"model": "qwen2:0.5b",
"prompt": "你好",
"stream": false
}'
返回包含response字段的JSON即为成功。
高频问题与避坑指南
问题1:拉取模型时提示“no space left on device”
解决方法:检查磁盘剩余空间,至少预留5GB以上。如果系统盘不够,可以手动指定模型下载路径到外接存储:
ollama set modeldir /mnt/usbdrive/models
问题2:启动ollama服务时端口被占
用 sudo lsof -i :11434 查看哪个进程在用,然后修改ollama监听端口(将上面OLLAMA_HOST改为其他端口)。
问题3:推理速度极慢
先确认是否用了CPU模式。用 ollama list 查看模型列表,然后运行模型时添加 --num-gpu 1 参数尝试强制使用GPU。如果显卡不支持,可以考虑换成更小的模型如 tinyllama 或 phi-2。
性能验证与进阶优化
部署完成后,你需要确认推理服务器能满足实际使用需求。
执行一个测试压力脚本(比如连续发送20次请求),测量平均响应时间。
对于0.5B模型,CPU推理通常每问耗时2-5秒,GPU推理可缩减到0.5秒以内。
如果希望提高吞吐量,可以改用 vllm 并开启 continuous batching。
但vllm配置稍复杂,建议先跑通ollama再逐步进阶。
最后,定期检查系统资源占用:用 htop 看CPU和内存,用 nvidia-smi 看显卡占用。
如果内存长期高于80%,考虑增加swap分区或替换更大内存条。
旧电脑改造的低成本AI推理服务器虽然性能有限,但对于个人学习、测试和轻量级应用完全够用,这也是变废为宝的最佳实践之一。