零基础玩转Agentic AI运维:从部署到自动排障全步骤

写在前面:Agentic AI运维到底能帮你省什么事

很多新手运维觉得“AI运维”很遥远,其实借助开源工具,你可以让AI代理自动监控服务器、分析告警、甚至执行修复命令。
本文将带你在Ubuntu 22.04上搭建一个最小可用的Agentic AI运维环境,全程只用到命令行和基础Python,零基础也能听懂。

第一步:搞清楚需要准备哪些条件

  • 一台Linux服务器(推荐Ubuntu 20.04/22.04,虚拟机或云服务器都可以)
  • 登录用户具有sudo权限
  • 服务器能连接外网(因为要下载模型和依赖)
  • 至少4GB内存(推荐8GB),20GB磁盘空间

如果你用的是腾讯云或阿里云轻量服务器,记得在安全组里放行所需端口(本文只用本地服务,不需要额外放行)。

第二步:安装Ollama —— AI模型运行器

Ollama可以让你在本地运行开源大模型,是整个Agentic AI运维的大脑。

curl -fsSL https://ollama.com/install.sh | sh

安装完成后启动服务:

sudo systemctl start ollama
sudo systemctl enable ollama

拉取一个轻量模型(我用的是qwen2.5:7b,适合中文场景):

ollama pull qwen2.5:7b

验证:输入ollama list,看到模型列表就说明成功。
首次拉取需几分钟,请耐心等待。

第三步:编写Agentic AI运维脚本(自动检查磁盘并处理)

我们使用LangChain框架来让AI代理具备“思考+行动”的能力。
先安装Python依赖:

pip install langchain langchain-community psutil

在用户目录下创建agent_monitor.py,写入以下内容:

import psutil
from langchain.llms import Ollama
from langchain.agents import initialize_agent, Tool
from langchain.agents import AgentType

# 连接Ollama
llm = Ollama(model="qwen2.5:7b", temperature=0)

# 定义两个工具:获取磁盘信息和执行命令
def get_disk_usage(_):
    usage = psutil.disk_usage('/')
    return f"磁盘总空间:{usage.total/1e9:.1f}GB, 已用:{usage.used/1e9:.1f}GB, 使用率:{usage.percent}%"

def run_command(cmd):
    import subprocess
    result = subprocess.run(cmd, shell=True, capture_output=True, text=True, timeout=30)
    return result.stdout.strip()

tools = [
    Tool(name="磁盘检查", func=get_disk_usage, description="获取服务器根分区磁盘使用情况"),
    Tool(name="执行命令", func=run_command, description="在服务器上执行shell命令,入参为完整命令字符串")
]

agent = initialize_agent(
    tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True
)

# 输入任务
agent.run("请检查我的服务器磁盘使用率,如果超过80%则执行 'echo 磁盘告警 > /tmp/alert.txt',并告诉我结果")

运行脚本

python3 agent_monitor.py

你会看到Agent自动调用工具,先查磁盘使用率,如果超过80%就会创建告警文件。
整个过程完全由AI代理决策,不需要你写if-else。

常见报错与避坑说明

报错1:ModuleNotFoundError: No module named 'langchain'
→ 检查是否在正确的Python环境(推荐用venv)。执行python3 -m venv venv && source venv/bin/activate后重新pip安装。

报错2:Ollama connection refused
→ 确保ollama服务在运行。执行sudo systemctl status ollama,如果没启动则sudo systemctl start ollama。Ollama默认监听127.0.0.1:11434,不要改。

避坑:别给AI过高的权限

  • 以上脚本中的执行命令工具没有做限制,生产环境应加入命令白名单(如只允许dfecho等安全命令),防止AI误操作。
  • 建议先用Agentic AI运维在测试环境跑一周,观察AI决策逻辑再上线。

效果验证与下一步扩展

运行cat /tmp/alert.txt,如果看到“磁盘告警”字样,说明Agentic AI运维的第一步已经走通。
你可以继续扩展:

  • 加入进程监控:用psutil.process_iter获取进程列表,让AI判断异常进程并杀死。
  • 集成钉钉/飞书机器人:在run_command中加入发送告警的curl命令。
  • 使用定时任务:把python3 agent_monitor.py加入crontab,每小时自动执行一次。

如果你正在做Agentic AI运维,建议先按本文步骤跑通最小闭环,再根据实际需求增加工具函数。
遇到问题时优先回顾“避坑”部分,大部分环境问题都能解决。

分享到:
上一篇
零基础也能上手:AI智能体运维完整实操指南
下一篇
LLM服务器部署:从零开始部署LLM服务器
1
系统公告

高考专属福利来袭|凭准考证免费领香港 CN2 云服务器

值高考落幕之际,泽御云开启考生专属回馈 + 产品限时特惠双重活动,助力学子暑期学习建站 高考 考生专属福利 全体应届高考生,凭高考准考证即可免费申领【香港 CN2 轻量云服务器,4 核 4G AMD 处理器】,免费使用周期 30 天,可用于搭建个人站点、编程实操、技术实训,祝各位考生金榜题名,前程似锦! 泽御云资质齐全合规自营机房,线路覆盖香港 CN2、国内 BGP、内蒙电信、美国精品线路,售后全天候技术支持。 官方网站:www.zeyuyun.com,活动限时有效,优惠逾期不再保留。
服务中心
客服
在线客服
24小时为您服务
咨询
联系我们
联系我们,为您的业务提供专属服务。
24/7 技术支持
如果您遇到寻求进一步的帮助,请过工单与我们进行联系。
24/7 即时支持
泽御云
售前客服
泽御云
泽御云
售后客服
泽御云
技术支持
评价
您对当前页面的整体感受是否满意?
😞
非常不满意
😕
不满意
😐
一般
🙂
满意
😊
非常满意