AI自动化运维平台搭建实操教程:从零开始部署与验证
AI自动化运维平台搭建实操教程:从零开始部署与验证
很多新手一听“AI运维”就觉得门槛高,其实借助开源工具加一点脚本,普通人也能搭出可用的自动化运维平台。
本文用Docker Compose把Prometheus、Grafana和一个AI异常检测服务拼到一起,整个过程不超过20分钟,适合第一次接触运维的你跟着做。
准备条件:一台Linux服务器和Docker环境
你需要一台能联网的Linux服务器(CentOS 7+或Ubuntu 20.04+),建议配置内存不低于2GB。
如果还没有安装Docker,运行下面两条命令装上:
# 安装Docker(Ubuntu为例)
sudo apt update && sudo apt install -y docker.io docker-compose
sudo systemctl enable docker && sudo systemctl start docker
检查是否成功:docker version应该看到客户端和服务器版本号。
核心操作:用Docker Compose一键部署监控+AI检测
在服务器上创建一个工作目录,比如mkdir ~/ai-ops && cd ~/ai-ops。
新建文件docker-compose.yml,内容如下:
version: '3'
services:
prometheus:
image: prom/prometheus
ports:
- "9090:9090"
volumes:
- ./prometheus.yml:/etc/prometheus/prometheus.yml
grafana:
image: grafana/grafana
ports:
- "3000:3000"
depends_on:
- prometheus
anomaly-detector:
build: ./detector
ports:
- "5000:5000"
同时创建./prometheus.yml,配置抓取目标(这里只抓本机示例):
scrape_configs:
- job_name: 'node'
static_configs:
- targets: ['localhost:9090']
再看AI检测服务。
创建./detector文件夹,里面放Dockerfile和app.py。Dockerfile很简单:
FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install flask numpy
COPY . .
CMD ["python", "app.py"]
app.py实现一个简易API,接收监控数据后用均值±2倍标准差判断异常:
from flask import Flask, request, jsonify
import numpy as np
app = Flask(__name__)
data = []
@app.route('/predict', methods=['POST'])
def predict():
value = request.json['value']
data.append(value)
if len(data) > 30:
mean = np.mean(data[:-1])
std = np.std(data[:-1])
threshold = 2 * std
is_anomaly = abs(value - mean) > threshold
return jsonify({'anomaly': bool(is_anomaly)})
return jsonify({'anomaly': False})
if __name__ == '__main__':
app.run(host='0.0.0.0', port=5000)
requirements.txt写一行flask即可。
所有文件准备好后,在~/ai-ops目录下执行:
sudo docker-compose up -d
等待镜像拉取并启动,看到Creating字样就说明成功了。
避坑指南:新手最容易卡住的三个地方
- 端口冲突:如果本机已经占用了9090或3000,请在
docker-compose.yml里改外部端口,比如"9091:9090"。 - Docker权限:如果你不用sudo会报权限错误,记得把当前用户加到docker组:
sudo usermod -aG docker $USER,然后退出重登。 - AI检测服务启动失败:检查
./detector/Dockerfile和app.py是否放在正确位置;第一次启动会下载Python基础镜像,速度可能慢,耐心等。
效果验证:访问Grafana并测试AI告警
打开浏览器输入http://你的服务器IP:3000,默认用户名/密码是admin/admin,首次登录会要求改密码。
进入Grafana后添加数据源,选择Prometheus,URL填http://prometheus:9090(注意服务名),保存。
然后导入官方Node Exporter仪表盘(ID 1860)。
你应该能看到本机CPU、内存等实时数据。
要测试AI检测,你可以用curl模拟发送一个异常值:
curl -X POST http://localhost:5000/predict -H "Content-Type: application/json" -d '{"value":500}'
返回{"anomaly":true}就说明AI检测生效了。
如果想更自动化,可以在Prometheus里配置一个alert rule,把异常指标转发给自研脚本。
总结
通过这一套步骤,你已经搭起了一个自带简易AI检测的自动化运维平台雏形。
下一步可以丰富监控指标(比如用Node Exporter收集更多数据),或者换一个更成熟的AIOps框架。
如果搭建过程中遇到其他问题,优先检查Docker容器日志:sudo docker-compose logs会告诉你具体错误。
希望这篇AI自动化运维平台搭建实操教程能帮你顺利入门。