零基础玩转Agentic AI运维:从部署到自动排障全步骤
写在前面:Agentic AI运维到底能帮你省什么事
很多新手运维觉得“AI运维”很遥远,其实借助开源工具,你可以让AI代理自动监控服务器、分析告警、甚至执行修复命令。
本文将带你在Ubuntu 22.04上搭建一个最小可用的Agentic AI运维环境,全程只用到命令行和基础Python,零基础也能听懂。
第一步:搞清楚需要准备哪些条件
- 一台Linux服务器(推荐Ubuntu 20.04/22.04,虚拟机或云服务器都可以)
- 登录用户具有sudo权限
- 服务器能连接外网(因为要下载模型和依赖)
- 至少4GB内存(推荐8GB),20GB磁盘空间
如果你用的是腾讯云或阿里云轻量服务器,记得在安全组里放行所需端口(本文只用本地服务,不需要额外放行)。
第二步:安装Ollama —— AI模型运行器
Ollama可以让你在本地运行开源大模型,是整个Agentic AI运维的大脑。
curl -fsSL https://ollama.com/install.sh | sh
安装完成后启动服务:
sudo systemctl start ollama
sudo systemctl enable ollama
拉取一个轻量模型(我用的是qwen2.5:7b,适合中文场景):
ollama pull qwen2.5:7b
验证:输入ollama list,看到模型列表就说明成功。
首次拉取需几分钟,请耐心等待。
第三步:编写Agentic AI运维脚本(自动检查磁盘并处理)
我们使用LangChain框架来让AI代理具备“思考+行动”的能力。
先安装Python依赖:
pip install langchain langchain-community psutil
在用户目录下创建agent_monitor.py,写入以下内容:
import psutil
from langchain.llms import Ollama
from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType
# 连接Ollama
llm = Ollama(model="qwen2.5:7b", temperature=0)
# 定义两个工具:获取磁盘信息和执行命令
def get_disk_usage(_):
usage = psutil.disk_usage('/')
return f"磁盘总空间:{usage.total/1e9:.1f}GB, 已用:{usage.used/1e9:.1f}GB, 使用率:{usage.percent}%"
def run_command(cmd):
import subprocess
result = subprocess.run(cmd, shell=True, capture_output=True, text=True, timeout=30)
return result.stdout.strip()
tools = [
Tool(name="磁盘检查", func=get_disk_usage, description="获取服务器根分区磁盘使用情况"),
Tool(name="执行命令", func=run_command, description="在服务器上执行shell命令,入参为完整命令字符串")
]
agent = initialize_agent(
tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True
)
# 输入任务
agent.run("请检查我的服务器磁盘使用率,如果超过80%则执行 'echo 磁盘告警 > /tmp/alert.txt',并告诉我结果")
运行脚本:
python3 agent_monitor.py
你会看到Agent自动调用工具,先查磁盘使用率,如果超过80%就会创建告警文件。
整个过程完全由AI代理决策,不需要你写if-else。
常见报错与避坑说明
报错1:ModuleNotFoundError: No module named 'langchain'
→ 检查是否在正确的Python环境(推荐用venv)。执行python3 -m venv venv && source venv/bin/activate后重新pip安装。
报错2:Ollama connection refused
→ 确保ollama服务在运行。执行sudo systemctl status ollama,如果没启动则sudo systemctl start ollama。Ollama默认监听127.0.0.1:11434,不要改。
避坑:别给AI过高的权限
- 以上脚本中的
执行命令工具没有做限制,生产环境应加入命令白名单(如只允许df、echo等安全命令),防止AI误操作。 - 建议先用
Agentic AI运维在测试环境跑一周,观察AI决策逻辑再上线。
效果验证与下一步扩展
运行cat /tmp/alert.txt,如果看到“磁盘告警”字样,说明Agentic AI运维的第一步已经走通。
你可以继续扩展:
- 加入进程监控:用
psutil.process_iter获取进程列表,让AI判断异常进程并杀死。 - 集成钉钉/飞书机器人:在
run_command中加入发送告警的curl命令。 - 使用定时任务:把
python3 agent_monitor.py加入crontab,每小时自动执行一次。
如果你正在做Agentic AI运维,建议先按本文步骤跑通最小闭环,再根据实际需求增加工具函数。
遇到问题时优先回顾“避坑”部分,大部分环境问题都能解决。