AI自动化运维平台搭建实操教程：从零开始部署与验证

知识分享

2026-06-01 00:40

39 阅读

AI自动化运维平台搭建实操教程：从零开始部署与验证

很多新手一听“AI运维”就觉得门槛高，其实借助开源工具加一点脚本，普通人也能搭出可用的自动化运维平台。
本文用Docker Compose把Prometheus、Grafana和一个AI异常检测服务拼到一起，整个过程不超过20分钟，适合第一次接触运维的你跟着做。

准备条件：一台Linux服务器和Docker环境

你需要一台能联网的Linux服务器（CentOS 7+或Ubuntu 20.04+），建议配置内存不低于2GB。
如果还没有安装Docker，运行下面两条命令装上：

# 安装Docker（Ubuntu为例）
sudo apt update && sudo apt install -y docker.io docker-compose
sudo systemctl enable docker && sudo systemctl start docker

检查是否成功：docker version应该看到客户端和服务器版本号。

核心操作：用Docker Compose一键部署监控+AI检测

在服务器上创建一个工作目录，比如mkdir ~/ai-ops && cd ~/ai-ops。
新建文件docker-compose.yml，内容如下：

version: '3'
services:
  prometheus:
    image: prom/prometheus
    ports:
      - "9090:9090"
    volumes:
      - ./prometheus.yml:/etc/prometheus/prometheus.yml

  grafana:
    image: grafana/grafana
    ports:
      - "3000:3000"
    depends_on:
      - prometheus

  anomaly-detector:
    build: ./detector
    ports:
      - "5000:5000"

同时创建./prometheus.yml，配置抓取目标（这里只抓本机示例）：

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9090']

再看AI检测服务。
创建./detector文件夹，里面放Dockerfile和app.py。Dockerfile很简单：

FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install flask numpy
COPY . .
CMD ["python", "app.py"]

app.py实现一个简易API，接收监控数据后用均值±2倍标准差判断异常：

from flask import Flask, request, jsonify
import numpy as np

app = Flask(__name__)
data = []

@app.route('/predict', methods=['POST'])
def predict():
    value = request.json['value']
    data.append(value)
    if len(data) > 30:
        mean = np.mean(data[:-1])
        std = np.std(data[:-1])
        threshold = 2 * std
        is_anomaly = abs(value - mean) > threshold
        return jsonify({'anomaly': bool(is_anomaly)})
    return jsonify({'anomaly': False})

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

requirements.txt写一行flask即可。
所有文件准备好后，在~/ai-ops目录下执行：

sudo docker-compose up -d

等待镜像拉取并启动，看到Creating字样就说明成功了。

避坑指南：新手最容易卡住的三个地方

端口冲突：如果本机已经占用了9090或3000，请在docker-compose.yml里改外部端口，比如"9091:9090"。
Docker权限：如果你不用sudo会报权限错误，记得把当前用户加到docker组：sudo usermod -aG docker $USER，然后退出重登。
AI检测服务启动失败：检查./detector/Dockerfile和app.py是否放在正确位置；第一次启动会下载Python基础镜像，速度可能慢，耐心等。

效果验证：访问Grafana并测试AI告警

打开浏览器输入http://你的服务器IP:3000，默认用户名/密码是admin/admin，首次登录会要求改密码。
进入Grafana后添加数据源，选择Prometheus，URL填http://prometheus:9090（注意服务名），保存。
然后导入官方Node Exporter仪表盘（ID 1860）。
你应该能看到本机CPU、内存等实时数据。

要测试AI检测，你可以用curl模拟发送一个异常值：

curl -X POST http://localhost:5000/predict -H "Content-Type: application/json" -d '{"value":500}'

返回{"anomaly":true}就说明AI检测生效了。
如果想更自动化，可以在Prometheus里配置一个alert rule，把异常指标转发给自研脚本。

总结

通过这一套步骤，你已经搭起了一个自带简易AI检测的自动化运维平台雏形。
下一步可以丰富监控指标（比如用Node Exporter收集更多数据），或者换一个更成熟的AIOps框架。
如果搭建过程中遇到其他问题，优先检查Docker容器日志：sudo docker-compose logs会告诉你具体错误。
希望这篇AI自动化运维平台搭建实操教程能帮你顺利入门。

API密钥泄露应急处理与防护方案：新手也能快速上手

搭建AI监控系统实时告警服务器状态：Netdata实战

AI自动化运维平台搭建实操教程：从零开始部署与验证

准备条件：一台Linux服务器和Docker环境

核心操作：用Docker Compose一键部署监控+AI检测

避坑指南：新手最容易卡住的三个地方

效果验证：访问Grafana并测试AI告警

总结

文章分类

机房迁移升级通知