服务器AI应用低成本部署:低成本部署AI应用

为什么你不需要花几千块买GPU

很多刚接触AI的朋友以为跑模型必须买昂贵的显卡。
其实对于个人测试、自动化任务或小团队使用,借助量化技术和轻量模型,一台1核2G的服务器完全可以胜任。
本文就基于最便宜的云服务器(比如腾讯云轻量应用服务器,1核2G,月费约34元),手把手教你部署一个可调用的AI服务。

第一步:准备一台服务器环境

先确认你的服务器拥有公网IP,系统选择Ubuntu 22.04 LTS。
购买后通过SSH登录(Windows用户可用Putty,Mac/Linux直接终端)。
登录后更新软件包:

sudo apt update && sudo apt upgrade -y

新机器需要安装一些基础工具:

sudo apt install curl wget git -y

检查内存和磁盘空间:

free -h   # 查看内存,剩余至少800MB
df -h     # 查看磁盘,至少剩余10GB
如果你购买的是轻量服务器,默认数据盘不用挂载,直接用系统盘即可。

第二步:安装Ollama并拉取模型

Ollama是目前最易用的开源大模型运行工具,支持CPU运行。
一行命令安装:

curl -fsSL https://ollama.com/install.sh | sh

安装完成后,启动服务(默认会自动启动):

sudo systemctl start ollama
sudo systemctl enable ollama   # 开机自启

现在拉取一个适合低配机器的模型。
推荐 qwen2.5:1.5b (阿里通义千问的轻量版,1.5B参数,量化后约1GB):

ollama pull qwen2.5:1.5b

拉取过程受网速影响,国内服务器可能慢。
你可以改用国内镜像源(如阿里云)加速,或者使用其他国内可快速下载的模型。
如果下载失败,检查网络或参考避坑部分

拉取成功后,测试本地对话:

ollama run qwen2.5:1.5b "你好"

看到正常回复就表示模型跑起来了。
Ctrl+D 退出交互模式。

第三步:开放API服务并在本地调用

默认Ollama只监听 127.0.0.1:11434,仅限本机使用。
为了让你的本地电脑或小程序调用,需要修改监听地址。
编辑服务文件:

sudo systemctl edit ollama

在弹出的编辑器中输入以下内容:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

保存退出后重启Ollama:

sudo systemctl daemon-reload
sudo systemctl restart ollama

接着在云服务器的安全组(防火墙)中放行 11434 端口(TCP),宝塔面板则在“安全”中添加端口放行。
确认端口已开:

curl http://localhost:11434/api/tags

如果返回了包含 qwen2.5:1.5b 的JSON,说明API已就绪。

现在在另一台有Python环境的电脑上安装requests库,写一个简单的测试脚本:

import requests

url = "http://你的服务器公网IP:11434/api/generate"
data = {
    "model": "qwen2.5:1.5b",
    "prompt": "用一句话解释什么是服务器AI应用低成本部署",
    "stream": False
}
response = requests.post(url, json=data)
print(response.json()["response"])

运行脚本,如果能得到中文回答,恭喜你——低成本AI部署已经成功!

避坑与高频问题

1. 模型下载非常慢或失败

国内服务器直接连官方源经常超时。
解决方案:使用环境变量 OLLAMA_URL 指向国内镜像,比如设置 export OLLAMA_URL=https://ollama-mirror.xxx,或者使用阿里云等提供的镜像。
也可以先用 ollama pull 的重试功能,或者下载已知的GGUF模型文件放到本地目录。

2. 内存不足导致进程被杀死

1核2G服务器运行1.5B模型时内存占用约800MB-1GB,如果还有剩余内存太少会被 OOM Kill。
你可以:

  • 关闭不必要的服务(如MySQL、Nginx)
  • 使用 ollama run 时设置 --num-ctx 2048 降低上下文长度
  • 或者选择更小的模型,如 tinyllama:1.1b

3. 外部无法访问API

确认云服务器安全组已放行11434端口,并且服务器本身的防火墙(如果有)也允许。
用另一台电脑的 telnet 你的IP 11434 测试连通性。
如果宝塔面板,检查“安全”->“端口管理”中是否正确放行了。

4. 模型回答质量差

1.5B模型能力有限,适合简单问答、分类、摘要等轻量任务。
如果想提高效果,可以升级到3B甚至7B的量化版本,但需要2核4G以上的服务器。

---

如果你想进一步搭建一个类似ChatGPT的聊天界面,可以考虑安装 Open WebUI(原Ollama WebUI),它也是一个Docker容器。
但在1核2G服务器上跑Docker会占用更多内存,建议先体验API成功后,再决定是否扩展前端。

这篇文章的方法完全基于开源工具和廉价云服务器,是服务器AI应用低成本部署的入门实践。
遇到任何报错,先检查日志 journalctl -u ollama -f,根据错误信息调整配置。
希望你能用最小的成本,跑起自己的AI服务。

分享到:
上一篇
教你用Docker部署TensorFlow环境,入门不踩坑
下一篇
宝塔面板Nginx缓存规则设置,一招解决网站加载慢
1
系统公告

泽御云五一特惠活动🔥

泽御云持证合规运营,资质齐全可查,长久稳定! 五一限时多重福利同步开启: ✅ 香港 2 核 2G 云服务器超值拼团,低价入手团长免费 ✅ 4 核 4G 多机房年付拼团,性价比拉满 ✅ 内蒙古新区限时 7 折(zeyuyunnmg)特惠,专属优惠码锁价续费 ✅ 全站通用 75 折优惠,老用户充值享专属赠金 官方站点:zeyuyun.com 合规资质齐全|售后有保障|活动限时错过不再有
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意