配置环境
ubuntu 12.04
torque 2.4.6
配置步骤及出现问题解决(以root运行)1.安装torque
官方网站的torque安装帮助文档没有针对ubuntu的安装步骤,安装起来非常费劲,因此这里采用apt-get来安装
apt-get install torque-server torque-client torque-mom torque-pam
torque-server负责接收任务请求
torque-client在每个提交任务的节点上,负责提交任务到服务器
torque-mom计算节点(名如其职)
torque-pam作用不详
2.设置torque
安装torque后,它会自动开启,因此设置前将所有的服务关闭,否则设置会无效
/etc/init.d/torque-mom stop/etc/init.d/torque-scheduler stop/etc/init.d/torque-server stoppbs_server -t create
killall pbs_server
下一步对torque进行配置,,配置之前,要修改计算机的名称
vim /etc/hosts将127.0.1.1 hostname改为服务器的静态地址,如不修改后续的qmgr无法正确运行
执行以下命令:
echo $HOSTNAME > /etc/torque/server_name
echo $HOSTNAME> /var/spool/torque/server_priv/acl_svr/acl_hosts
echo root@$HOSTNAME > /var/spool/torque/server_priv/acl_svr/operators
echo root@$HOSTNAME > /var/spool/torque/server_priv/acl_svr/managers
echo "$HOSTNAME np=8" > /var/spool/torque/server_priv/nodes(np代表计算节点的处理器个数)
echo $HOSTNAME> /var/spool/torque/mom_priv/config
这里的HOSTNAME不能用静态IP代替,否则无法开启pbs服务。
3.开启pbs服务
/etc/init.d/torque-server start/etc/init.d/torque-scheduler start/etc/init.d/torque-mom start
在开启服务的时候,可能会遇到某些目录的权限检查错误问题,是因为以root运行后,某些目录的权限开放过多,chmod o-w对应的文件目录即可
4.设置调度信息(具体含义不明)
qmgr -c ‘set server scheduling = true’qmgr -c ‘set server keep_completed = 300’qmgr -c ‘set server mom_job_sync = true’
qmgr -c ‘create queue batch’ 创建名为batch的处理队列,可修改 qmgr -c ‘set queue batch queue_type = execution’ qmgr -c ‘set queue batch started = true’ qmgr -c ‘set queue batch enabled = true’ qmgr -c ‘set queue batch resources_default.walltime = 2:00:00’ 应该是作业的默认运行时间(Maximum amount of real time during which the job canbe in the running state) qmgr -c ‘set queue batch resources_default.nodes = 1’ 计算节点只有一个 qmgr -c ‘set server default_queue = batch
以下设置允许服务器向自己提交任务
qmgr -c ‘set server submit_hosts = $HOSTNAME’ qmgr -c ‘set server allow_node_submit = true’5.配置完毕进行测试(非root用户)
提交任务qsub -I
查询任务及状态
qstat -a
参考文献
Installing Torque/PBS job scheduler on Ubuntu 14.04 LTS / 16.04 LTS
最可怕的敌人,就是没有坚强的信念。