Tutorial sul monitor del Tier2

From Atlmiwiki

Contents

Controllo dello stato dei batch e servizi di grid

Presentazione Luca

  • presentazione della farm (quali sono le UI, il CE ed SE, i WN, eventualmente architettura di rete e dislocazione delle macchine)
  • spiegare cosa sono i test di SAM
  • come visualizzare lo stato dei test con gridview
  • spiegare configurazione dei job, cosa sono le fair share
  • come controllare l'occupazione delle code, la priorita` degli utenti e lo stato di utilizzo della fair share (?)

Monitoring della fabric

Presentazione Michele

  • spiegare quali sono i test effettuati da Nagios
  • come visualizzare i risultati
  • spiegare quali parametri delle prestazioni delle macchine vengono visualizzate con Ganglia (?)
  • come interpretare i grafici di Ganglia (?)

Monitoring dello stato della produzione di ATLAS

Presentazione Guido sul DDM

Presentazione Guido sul job monitoring

  • spiegare come usare la dashboard di ATLAS per controllare:
    • quanti job di produzione girano e con che tasso di fallimenti (come si identifica ad esempio se i fallimenti sono dovuti ad un nodo o ad un problema generale)
    • se esistono sottoscrizioni a Milano e come queste vengono trasferite
    • come verificare se i dati della produzione di Milano sono trasferiti al CNAF
    • come identificare sottoscrizioni bloccate
    • come vedere se esistono dataset non registrati e come comportarsi
  • controllo dello spazio disco disponibile in DPM

Problemi utente

Guido+Luca

Presentazione Guido su RB/release


  • come vedere se il broker e` giu`, broker alternativi
  • come testare la configurazione di dq2
  • come vedere quali release sono installate
  • quali sono le variabili/settaggi che ogni utente dovrebbe avere
  • job in abort, cosa fare?
  • job che falliscono: che debug possibili? Quali sono i problemi piu` frequenti e che test fare? a me vengono in mente i seguenti:
    • il job fallisce su un nodo specifico per problemi di configurazione del nodo
    • il job fallisce su un nodo specifico a causa di una connessione NFS
    • il job fallisce per problemi di autenticazione dell'utente