Docker 容器资源监控，防止进程异常占用

知识分享

2026-05-28 04:40

51 阅读

为什么要监控Docker容器资源

Docker虽然让应用部署变得简单，但容器里的进程可能因为代码Bug或异常请求而疯狂占用CPU和内存，最终拖垮整个宿主机。
对于新手来说，如果没有合适的资源监控和限制手段，一个失控的容器就能让服务器响应缓慢甚至崩溃。
本文将一步步教你使用Docker自带工具和简单配置，实现容器资源监控并防止进程异常占用。

准备工作：环境与工具

确保你的服务器已安装Docker（版本建议20.10以上）。
验证方法：

docker --version

如果未安装，参考官方文档或使用一键安装脚本（例如 curl -fsSL https://get.docker.com | bash）。
本文所有操作基于Linux系统（Ubuntu/CentOS通用），同时推荐安装一个轻量级可视化工具ctop，便于初学查看：

sudo wget https://github.com/bcicen/ctop/releases/download/v0.7.7/ctop-0.7.7-linux-amd64 -O /usr/local/bin/ctop
sudo chmod +x /usr/local/bin/ctop

核心操作：监控与限制资源

1. 实时监控容器资源使用

最简单的命令是docker stats，它会动态显示所有运行容器的CPU、内存、网络I/O等指标：

docker stats

若只想监控某个容器，追加容器名或ID：

docker stats my_container

使用ctop则更清晰，直接运行ctop，方向键选择，回车可查看更多进程详情。
当你发现某个容器CPU或内存持续飙升，就需要立刻限制其资源。

2. 设置容器资源限制（阻止异常占用）

在启动容器时，通过--memory和--cpus参数硬性限制：

docker run -d --name web_app --memory 512m --cpus 0.5 nginx:latest

表示内存最多512MB，CPU最多50%核心。
如果容器已经运行，可用docker update动态调整：

docker update --memory 256m --memory-swap 256m web_app
docker update --cpus 0.3 web_app

注意--memory-swap要设成跟内存一样，避免容器使用swap导致性能雪崩。

3. 设置进程数量限制（防止fork炸弹）

Docker还支持限制容器内的进程总数（pids limit），通过--pids-limit：

docker run --pids-limit 100 --name safe_app my_image

这对于防范恶意脚本不断fork新进程非常有效。

避坑与高频问题解答

问题：设置了内存限制，但容器仍然使用超出限制？

答：检查是否同时设置了--memory-swap。
如果--memory-swap比--memory大，容器可以使用swap“突破”内存限制。
对于严格场景，建议将--memory-swap设为与--memory相同。

问题：容器被OOM Killer杀掉，日志在哪里看？

答：宿主机执行dmesg | grep -i kill 或 journalctl -k | grep -i 'out of memory'，可以看到哪个进程被杀死。
如果不想被杀，可以设置--oom-kill-disable（但必须同时设置内存限制，否则危险）。

问题：docker stats显示的CPU超过100%？

答：这是正常的。
Docker统计的是容器占用所有核心的百分比总和。
例如4核机器，一个容器占满2核，显示200%。

问题：如何找到容器内哪个进程占用资源最多？

答：进入容器：docker exec -it <容器名> /bin/bash，然后使用top或ps aux --sort=-%cpu查看。
如果容器内没有这些命令，使用docker top <容器名>列出宿主机视角的进程。

效果验证与自动化建议

验证监控是否生效

运行一个测试容器，故意压测：

   docker run -d --name stress_test --memory 128m --cpus 0.2 polinux/stress stress --cpu 1 --vm 1 --vm-bytes 64M

在另一个终端运行docker stats stress_test，观察CPU和内存是否被限制在设置值附近。内存应稳定在128MB左右，CPU在20%左右。
若容器因OOM被杀，docker ps -a会看到退出状态137（表示被kill），说明限制生效。

自动化长期监控

对于生产环境，建议使用Prometheus + cAdvisor + Grafana搭建持久监控方案。
但作为起步，你可以写一个简单的cron脚本，每小时记录docker stats --no-stream到日志，并设置阈值告警（例如超过80%触发邮件）。

最后提醒：资源监控是预防，但异常占用的根源还得靠日志排查。
结合docker logs和docker inspect，定位问题进程的上下文。
按照本文步骤先完成基础限制，你的服务器会安全很多。
如果你在操作中遇到其他问题，欢迎留言交流。

宝塔面板安装后网站无法访问，教你排查伪静态

服务器被暴力破解，如何使用密钥登录？