Comandi Condor

From Atlmiwiki

Per maggiori informazioni sui comandi Condor, consultare il Manuale

Contents

Query alla coda jobs

  • Jobs attualmente in coda:
       condor_q
       (l'opzione -l espande la lista mostrando tutti gli attributi)
  • Estrazione completa di un job:
       condor_q 46930.0 -l
  • Rapporto su un job, per mostrare eventuali problemi:
       condor_q 46930.0 -better-analyze
  • Jobs di un utente particolare:
       condor_q atlas007
  • Jobs accodati nelle ultime 24 ore di un utente a richiesta:
       read U; condor_q -constraint "QDate==$(date "+%s")-86400 && Owner==\"${U}\""
  • Associazione Condor Job ID -> Grid Job ID di tutti i job in coda:
       condor_q -format "%s." ClusterId -format "%s###" ProcId -format "%s\n" Env | sed "s/\(.*\)###.*EDG_WL_JOBID=\([^;]*\).*/\1 -> \2/"

Usando condor_history al posto di condor_q si puo' ottenere lo stesso output per i job già terminati (vedi paragrafo successivo).

Query allo storico

Job di cui si conosce l'id del batch system:

       condor_history 46930.0

Per ottenere la lista completa dei ClassAd di un job (i suoi attributi condor) aggiungere l'opzione "-l" Es:

       condor_history 46930.0 -l
       ottiene:     
       MyType = "Job"
       TargetType = "Machine"
       ClusterId = 46930
       QDate = 1243848267
       Owner = "sgmatlas074"
       ....
       ....
       Cmd =  "/home/sgmatlas074/.globus/.gass_cache/local/md5/48/9ff828d70326c8a3b2450819af00a9/md5/52/
                a5365ca1e78aed6ebfc9a189859b5f/data"
       ....
       User = "sgmatlas074@mi.infn.it"
       NiceUser = FALSE
       Env = HOME=/home/sgmatlas074;
             EDG_WL_JOBID=https://wms206.cern.ch:9000/EtHwKKR1RquzKlTmE1naEQ;
             GLOBUS_GRAM_MYJOB_CONTACT=URLx-nexus://ce-b1-1.mi.infn.it:20007/;
             GLOBUS_GRAM_JOB_CONTACT=https://ce-b1-1.mi.infn.it:20006/9421/1243848196/;
             GLOBUS_REMOTE_IO_URL=/home/sgmatlas074/.lcgjm/.remote_io_ptr/remote_io_file-9421.1243848196;
             GLOBUS_CE=ce-b1-1.mi.infn.it:2119/jobmanager-lcgcondor-short;
       ....
       ....


Job terminati nelle ultime 24 ore di un utente a richiesta:

       read U; condor_history -backwards -constraint "CompletionDate>=$(date "+%s")-86400 && Owner==\"${U}\""

Valori del ClassAd JobStatus:

  1. Idle
  2. Running
  3. Removed
  4. Completed
  5. Held
  6. Submission Error

Job di uno stato a richiesta:

       read S; condor_history -backwards -constraint "JobStatus==${S}"

Job di ID grid noto:

       condor_history -l -constraint 
       'regexp("https://wms208.cern.ch:9000/nIZL8e2TLUKfH030mJPfvw", Env)'

Stato dei workernodes

       condor-status
Es.
        - stato dei soli wn che stanno eseguendo jobs
        condor_status -run
        - stato dei wn ancora disponibili
        condor_status -avail
        - stato di un particolare wn, con elenco esteso dei suoi ClassAd
        condor_status wn-b1-23 -l

Comandi di gestione coda

N.B.: Al momento, tutti i comandi amministrativi devono essere eseguiti su t2-ce-03.

Drain e spegnimento di Condor su un worker node:

condor_off -peaceful -name <WN hostname> -startd

L'opzione "-peaceful" attende il termine di tutti i job running sul WN prima di spegnere Condor.

Per il riavvio di Condor, utilizzare il comando:

condor_on -name <WN hostname>

Per verificare lo stato di un WN:

condor_status <WN hostname>



N.B.: I comandi seguenti sono implementati come script custom e richiedono una configurazione ad hoc sui WN


Sospensione dei jobs: condor_suspend
Dal central manager di condor (ndr. t2cmcondor) si può invocare il comando con i seguenti parametri:

OPTIONS:
  --site=X       (GLOW site name)
  --constraint=X (arbitrary ClassAd constraint)
  --unsuspend    (remove suspension state set previously)
  --dry-run      (don't do anything; just show what would have been done)
  --status       (show suspension state)
Es.
        - su una macchina particolare (ricordare sempre l'escape delle " con \")
        condor_suspend --constraint="Machine==\"wn-b1-23.mi.infn.it\""
        - su tutti i worker nodes
        condor_suspend --constraint=true
        - su un range di macchine
        condor_suspend --constraint="regexp(\"wn-b1-[1-7].mi.infn.it\", Machine)"

Drain dei workernodes: condor_drain
Dal central manager di condor (ndr. t2cmcondor-125) si può invocare il comando con i seguenti parametri:

OPTIONS:
  --site=X       (GLOW site name)
  --constraint=X (arbitrary ClassAd constraint)
  --undrain      (remove draining state set previously)
  --dry-run      (don't do anything; just show what would have been done)
  --status       (show current state)

valgono esempi analoghi al precedente comando

drain e suspend sono comandi custom, NON fanno parte della distribuzione condor originale