AI自动化运维平台搭建实操教程:从零开始部署与验证

AI自动化运维平台搭建实操教程:从零开始部署与验证

很多新手一听“AI运维”就觉得门槛高,其实借助开源工具加一点脚本,普通人也能搭出可用的自动化运维平台。
本文用Docker Compose把Prometheus、Grafana和一个AI异常检测服务拼到一起,整个过程不超过20分钟,适合第一次接触运维的你跟着做。

准备条件:一台Linux服务器和Docker环境

你需要一台能联网的Linux服务器(CentOS 7+或Ubuntu 20.04+),建议配置内存不低于2GB。
如果还没有安装Docker,运行下面两条命令装上:

# 安装Docker(Ubuntu为例)
sudo apt update && sudo apt install -y docker.io docker-compose
sudo systemctl enable docker && sudo systemctl start docker

检查是否成功:docker version应该看到客户端和服务器版本号。

核心操作:用Docker Compose一键部署监控+AI检测

在服务器上创建一个工作目录,比如mkdir ~/ai-ops && cd ~/ai-ops
新建文件docker-compose.yml,内容如下:

version: '3'
services:
  prometheus:
    image: prom/prometheus
    ports:
      - "9090:9090"
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml

  grafana:
    image: grafana/grafana
    ports:
      - "3000:3000"
    depends_on:
      - prometheus

  anomaly-detector:
    build: ./detector
    ports:
      - "5000:5000"

同时创建./prometheus.yml,配置抓取目标(这里只抓本机示例):

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9090']

再看AI检测服务。
创建./detector文件夹,里面放Dockerfileapp.pyDockerfile很简单:

FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install flask numpy
COPY . .
CMD ["python", "app.py"]

app.py实现一个简易API,接收监控数据后用均值±2倍标准差判断异常:

from flask import Flask, request, jsonify
import numpy as np

app = Flask(__name__)
data = []

@app.route('/predict', methods=['POST'])
def predict():
    value = request.json['value']
    data.append(value)
    if len(data) > 30:
        mean = np.mean(data[:-1])
        std = np.std(data[:-1])
        threshold = 2 * std
        is_anomaly = abs(value - mean) > threshold
        return jsonify({'anomaly': bool(is_anomaly)})
    return jsonify({'anomaly': False})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

requirements.txt写一行flask即可。
所有文件准备好后,在~/ai-ops目录下执行:

sudo docker-compose up -d

等待镜像拉取并启动,看到Creating字样就说明成功了。

避坑指南:新手最容易卡住的三个地方

  • 端口冲突:如果本机已经占用了9090或3000,请在docker-compose.yml里改外部端口,比如"9091:9090"
  • Docker权限:如果你不用sudo会报权限错误,记得把当前用户加到docker组:sudo usermod -aG docker $USER,然后退出重登。
  • AI检测服务启动失败:检查./detector/Dockerfileapp.py是否放在正确位置;第一次启动会下载Python基础镜像,速度可能慢,耐心等。

效果验证:访问Grafana并测试AI告警

打开浏览器输入http://你的服务器IP:3000,默认用户名/密码是admin/admin,首次登录会要求改密码。
进入Grafana后添加数据源,选择Prometheus,URL填http://prometheus:9090(注意服务名),保存。
然后导入官方Node Exporter仪表盘(ID 1860)。
你应该能看到本机CPU、内存等实时数据。

要测试AI检测,你可以用curl模拟发送一个异常值:

curl -X POST http://localhost:5000/predict -H "Content-Type: application/json" -d '{"value":500}'

返回{"anomaly":true}就说明AI检测生效了。
如果想更自动化,可以在Prometheus里配置一个alert rule,把异常指标转发给自研脚本。

总结

通过这一套步骤,你已经搭起了一个自带简易AI检测的自动化运维平台雏形。
下一步可以丰富监控指标(比如用Node Exporter收集更多数据),或者换一个更成熟的AIOps框架。
如果搭建过程中遇到其他问题,优先检查Docker容器日志:sudo docker-compose logs会告诉你具体错误。
希望这篇AI自动化运维平台搭建实操教程能帮你顺利入门。

分享到:
上一篇
API密钥泄露应急处理与防护方案:新手也能快速上手
下一篇
搭建AI监控系统实时告警服务器状态:Netdata实战
1
系统公告

泽御云五一特惠活动🔥

泽御云持证合规运营,资质齐全可查,长久稳定! 五一限时多重福利同步开启: ✅ 香港 2 核 2G 云服务器超值拼团,低价入手团长免费 ✅ 4 核 4G 多机房年付拼团,性价比拉满 ✅ 内蒙古新区限时 7 折(zeyuyunnmg)特惠,专属优惠码锁价续费 ✅ 全站通用 75 折优惠,老用户充值享专属赠金 官方站点:zeyuyun.com 合规资质齐全|售后有保障|活动限时错过不再有
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意