Linux中sinfo节点什么命令
Linux中sinfo节点什么命令详细介绍
在 Linux 中,sinfo 是 Slurm 作业调度系统 提供的命令,用于查看集群中节点(Node)的状态和信息。以下是其常见用法和功能:
基本语法
bash
sinfo 选项
常用选项及功能
- 显示所有节点的简要状态
bashsinfo输出示例:
plaintextNODE STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FEATURES TOTAL_JOBnode01 idle 32 1:1:32 125GB 0GB 1.0 (null) 0
node02 alloc 32 1:1:32 125GB 0GB 1.0 (null) 1
node03 down 32 1:1:32 125GB 0GB 1.0 (null) 0
- 关键列说明:
NODE:节点名称。STATE:节点状态(如idle空闲、alloc正在运行作业、down故障、mix混合状态等)。CPUS:节点 CPU 核心数(格式为S:C:T,即 Socket 数:Core 数 / Socket:Thread 数 / Core)。MEMORY:节点内存大小。TOTAL_JOB:节点上运行的作业总数。
- 关键列说明:
- 显示节点详细信息
使用-l选项:
bashsinfo输出包含更多细节,如节点分区、引导时间、负载、GPU 信息(如有)等。
- 按节点名称过滤
使用-N选项指定节点名(支持通配符,如node*):
bashsinfo node01,node02sinfo node*
- 自定义输出格式
使用-o选项指定输出列(需配合--format,Slurm 20+ 版本):
bashsinfo- 常用格式参数:
%n:节点名%t:状态%c:CPU 核心数%m:内存%G:GPU 数量(如有)
- 常用格式参数:
- 查看节点故障原因
若节点状态为down,可结合-l查看详细原因:
bashsinfo node03
节点状态说明
| 状态 | 含义 |
|---|---|
idle |
节点空闲,无作业运行。 |
alloc |
节点正在运行作业(部分或全部资源占用)。 |
down |
节点故障或管理员手动离线。 |
mix |
节点部分资源被占用,部分空闲。 |
draining |
节点正在排水(准备离线,拒绝新作业)。 |
注意事项
sinfo是 Slurm 特有的命令,仅在安装了 Slurm 集群管理系统的环境中可用。- 普通用户只能查看公开的节点信息,管理员可查看所有节点状态。
- 更多帮助:
man sinfo或sinfo --help。
通过上述命令,可快速了解集群节点的资源使用情况和健康状态,用于作业调度和集群管理。