零基础玩转Agentic AI运维：从部署到自动排障全步骤

知识分享

2026-06-13 11:40

15 阅读

写在前面：Agentic AI运维到底能帮你省什么事

很多新手运维觉得“AI运维”很遥远，其实借助开源工具，你可以让AI代理自动监控服务器、分析告警、甚至执行修复命令。
本文将带你在Ubuntu 22.04上搭建一个最小可用的Agentic AI运维环境，全程只用到命令行和基础Python，零基础也能听懂。

第一步：搞清楚需要准备哪些条件

一台Linux服务器（推荐Ubuntu 20.04/22.04，虚拟机或云服务器都可以）
登录用户具有sudo权限
服务器能连接外网（因为要下载模型和依赖）
至少4GB内存（推荐8GB），20GB磁盘空间

如果你用的是腾讯云或阿里云轻量服务器，记得在安全组里放行所需端口（本文只用本地服务，不需要额外放行）。

第二步：安装Ollama —— AI模型运行器

Ollama可以让你在本地运行开源大模型，是整个Agentic AI运维的大脑。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后启动服务：

sudo systemctl start ollama
sudo systemctl enable ollama

拉取一个轻量模型（我用的是qwen2.5:7b，适合中文场景）：

ollama pull qwen2.5:7b

验证：输入ollama list，看到模型列表就说明成功。
首次拉取需几分钟，请耐心等待。

第三步：编写Agentic AI运维脚本（自动检查磁盘并处理）

我们使用LangChain框架来让AI代理具备“思考+行动”的能力。
先安装Python依赖：

pip install langchain langchain-community psutil

在用户目录下创建agent_monitor.py，写入以下内容：

import psutil
from langchain.llms import Ollama
from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType

# 连接Ollama
llm = Ollama(model="qwen2.5:7b", temperature=0)

# 定义两个工具：获取磁盘信息和执行命令
def get_disk_usage(_):
    usage = psutil.disk_usage('/')
    return f"磁盘总空间:{usage.total/1e9:.1f}GB, 已用:{usage.used/1e9:.1f}GB, 使用率:{usage.percent}%"

def run_command(cmd):
    import subprocess
    result = subprocess.run(cmd, shell=True, capture_output=True, text=True, timeout=30)
    return result.stdout.strip()

tools = [
    Tool(name="磁盘检查", func=get_disk_usage, description="获取服务器根分区磁盘使用情况"),
    Tool(name="执行命令", func=run_command, description="在服务器上执行shell命令，入参为完整命令字符串")
]

agent = initialize_agent(
    tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True
)

# 输入任务
agent.run("请检查我的服务器磁盘使用率，如果超过80%则执行 'echo 磁盘告警 > /tmp/alert.txt'，并告诉我结果")

运行脚本：

python3 agent_monitor.py

你会看到Agent自动调用工具，先查磁盘使用率，如果超过80%就会创建告警文件。
整个过程完全由AI代理决策，不需要你写if-else。

常见报错与避坑说明

报错1：ModuleNotFoundError: No module named 'langchain'
→ 检查是否在正确的Python环境（推荐用venv）。执行python3 -m venv venv && source venv/bin/activate后重新pip安装。

报错2：Ollama connection refused
→ 确保ollama服务在运行。执行sudo systemctl status ollama，如果没启动则sudo systemctl start ollama。Ollama默认监听127.0.0.1:11434，不要改。

避坑：别给AI过高的权限

以上脚本中的执行命令工具没有做限制，生产环境应加入命令白名单（如只允许df、echo等安全命令），防止AI误操作。
建议先用Agentic AI运维在测试环境跑一周，观察AI决策逻辑再上线。

效果验证与下一步扩展

运行cat /tmp/alert.txt，如果看到“磁盘告警”字样，说明Agentic AI运维的第一步已经走通。
你可以继续扩展：

加入进程监控：用psutil.process_iter获取进程列表，让AI判断异常进程并杀死。
集成钉钉/飞书机器人：在run_command中加入发送告警的curl命令。
使用定时任务：把python3 agent_monitor.py加入crontab，每小时自动执行一次。

如果你正在做Agentic AI运维，建议先按本文步骤跑通最小闭环，再根据实际需求增加工具函数。
遇到问题时优先回顾“避坑”部分，大部分环境问题都能解决。

零基础也能上手：AI智能体运维完整实操指南

LLM服务器部署：从零开始部署LLM服务器