Rreferences

TORQUE + maui

スケジューリングサーバMauiとキューシステムTorqueを組み合わせればジョブ管理システムを作ることができる。

  • TORQUE(Tera-scale Open-source Resource and QUEue manager)
    • Cluster Resource社が、Open PBSをもとに開発されたフリーのパッケージである。Open PBSは1998年に開発が終了しており、Open PBSを改良して開発が行われているのがTORQUEである。
    • PBSについて
  • maui
torque.png

How to use TORQUE + maui

ノード設定

Edit /path_to_torque/server_priv/nodes

cmbcs001.kek.jp np=4
cmbcs002.kek.jp np=4
cmbcs003.kek.jp np=4
#cmbcs004.kek.jp np=4

then restart:

/etc/init.d/pbs_server restart
/etc/init.d/maui restart

基本コマンド

qsubjobを投げるman qsub
qstatキューの状況を確認man qstat, options
qdelキューに蓄えられているjobの削除man qdel
pbsnodes管理ノードの確認
showq認識している管理ノード数の確認
showres現在の予約状況を表示

queueの設定法

Make a text file(high-que.txt) like:

# Create and define queue high-que
#
create queue high-que
set queue high-que queue_type = Execution
set queue high-que Priority = 100
set queue high-que enabled = True
set queue high-que started = True
set queue high-que max_running = 4
set queue high-que max_user_run = 4

and redirect it to qmgr:

qmgr < high-que.txt

qstatオプション

qstat -qシステムの全てのqueueを表示
qstat -BPBS Serverのサマリー情報を表示
qstat -aシステム全てのジョブを表示
qstat -Q全てのジョブをステータスコメント付きで表示
qstat -r実行中の全てのジョブを表示
qstat -f jobid指定したジョブの詳細な情報を表示
qstat -Qf queue指定したキューの詳細な情報を表示

qmgr

qmgrの設定を見たい場合はqmgr -c 'p s'コマンドを使用する。

qmgr -c 'p s'
qmgr -c "print server" | grep Priority list priority 
qmgr -c "list queue alice" list VO queue 
qmgr -c "list queue cert" list cert queue 
qmgr -c "print queue cert" | grep max list cert queue limits 
qmgr -c "print server" | grep max_run list job limits 
qstat -q list queue

qusb jobの追加

qsub コマンドでジョブを投入します(-e, -o オプションは必ず指定してください。):

qsub -q キュー名 -e 標準エラー用ファイル -o 標準出力用ファイル  ジョブスクリプト

スクリプトで記述したファイルを引数にする場合:

qsub hoge.sh

hoge.shの中身:

#!/bin/sh
#PBS -l nodes=1:ppn=1
#PBS -l cput=00:01:00
#PBS -l walltime=00:01:00
#PBS -o astr.tohoku.ac.jp:/home/other/maui/test/result/
#PBS -q batch
#PBS -N sample-
#PBS -j oe
#PBS -M hoge@astr.tohoku.ac.jp
#PBS -m e

cd /home/usrname/sample
./sample
exit 0

#はコメントアウトだが、#PBSはqsubに対する命令。

オプション

PBSoption name説明
-lnodes=1:ppn=1nodes=使用するノード数:ppn=1ノード毎に使用するcpu数。任意
-lcput=00:00:30cpuを使用する時間を指定。任意
-lwalltime=00:01:00処理の目安としての時間を指定する。任意
-oastr.tohoku.ac.jp:/dir結果の出力先を指定。指定しない場合qsubしたディレクトリへファイルは出力される。任意
-qdqueTORQUE側で設定したqueueを指定。デフォルトのqueueはdque。必須
-Nsample-jobの名前を設定。-oオプションで出力先を指定しない場合、出力ファイルはsample-.o[jobID]となる。任意
-joeエラー出力と標準出力を1つのファイルにまとめる。任意
-Myour mailaddress-mオプションで送るメールの宛先リストを作成する。任意
-me処理が終了した場合、-Mで指定したメールアドレスにメールを送信する。-m aオプションだとエラー時に、-m bオプションなら処理開始時にメール送信。-m aebなども可能。任意
-a[20080601]1400何時に処理を行うかを記述することができる。2008年6月1日14:00に処理を行いたい場合は例のように指定する。必要ない場合は日付はいらない。任意

添付ファイル: filetorque.png 795件 [詳細]