linux监控命令诊断思路

在 Linux 系统中，通过监控命令诊断系统性能或故障时，通常遵循 “从整体到细节，从资源到进程，从现象到根源” 的思路。以下是基于常用监控工具的诊断框架和步骤：

一、系统整体状态初步排查

1.
基础系统信息（快速定位异常信号）

2.
资源监控 “三板斧”

二、分模块深度诊断（CPU / 内存 / 磁盘 / 网络）

1. CPU 瓶颈诊断

判断 CPU 瓶颈类型：
- top 中 %us 高（用户态进程占用）：可能是应用逻辑问题（如死循环）。
- %sy 高（内核态占用）：可能是频繁系统调用、驱动或内核参数问题。
- %wa 高（I/O 等待）：磁盘或网络 I/O 阻塞，参考 iostat 中磁盘队列。
- %id 高但系统仍卡：可能是 NUMA 配置问题、CPU 绑定异常。

进程级定位：bash

pid,ppid,%cpu,%mem,cmd pstree pid pid

2. 内存问题诊断

内存泄漏或不足：
- free -h 中 available 低（实际可用内存），且 Swap 使用率高，说明内存不足。
- top/htop 中单个进程内存持续增长，可能是应用泄漏（如 Java 进程查看 GC 日志，C 程序用 Valgrind）。
内存碎片：bash
```
 /proc/buddyinfo  
```

3. 磁盘 I/O 瓶颈诊断

机械盘 vs SSD：
- 机械盘：%util > 70% 或 await > 20ms 可能瓶颈。
- SSD：await 应低于 5ms，关注队列深度（iotop 查看进程 I/O）。
具体文件 / 目录定位：bash
```
iotop      
 pid 
 /path 
```

4. 网络问题诊断

三、长期趋势与日志分析（非实时场景）

1.
历史性能数据

2.
应用与系统日志

关键日志路径：bash

/var/log/syslog /var/log/secure /var/log/dmesg /var/log/httpd/access_log journalctl 服务名

四、高级诊断工具（特定场景）

1.
性能分析（CPU 热点函数）

bash

perf perf record pid perf report

2.
锁竞争与线程状态

bash

pstack pid pid

3.
内核参数调优参考

bash

/proc/sys/kernel/sched_min_granularity_ns net.ipv4.tcp_*

五、诊断思路总结

通过 “实时监控工具快速定位 → 日志与历史数据辅助分析 → 特定工具深入追踪” 的流程，可高效诊断 Linux 系统问题。实际操作中需结合具体场景灵活组合工具，避免孤立分析单一指标。

← 上一篇: linux系统挖eth效率会高吗下一篇: linux驱动怎么调用→

相关文章：