08 febbraio 2006

From Atlmiwiki

Verbali riunioni utenti locali Tier2 ATLAS


Meeting Tier2 del 08 febbraio 2005


Presenti : A. Andreazza, L. Carminati, D. Cavalli, U. De Sanctis, M. Fanti, S. Resconi, L. Vaccarossa.

Punti principali di discussione e azioni da svolgere :

T001) Pagina wiki

Sono state settate le seguenti protezioni:

  • solo utenti con un account possono modificare le pagine
  • solo utenti con un account possono creare altri account (quindi nuovi utenti dovranno

chiedere ad utenti gia' esistenti di creare i loro account).

La wiki e' accessibile dall'esterno sulla porta 5080.

Azioni: Istruzioni sui punti precedenti dovrebbero essere messi sulla pagina wiki.

T002) Accesso allo storage

Mancano ancora le risposta dal CNAF per LSF. Inoltre sembra che neanche gli altri Tier2 abbiano ancora affrontato il problema dell'accesso allo storage per gli utenti locali.

Post-meeting da Stefano: "Per GPFS stiamo sempre aspettando che dall'IBM arrivino i CD per l'installazione (l'iter di richiesta e' proseguito e dovrebbero arrivare ragionevolmente settimana prossima)."

Azioni:

  1. Stefano ci fara' sapere i risultati del test di GPFS.
  2. Luca deve recuperare le informazioni per avere le licenze LSF dell'INFN.
  3. Leonardo: inserire nella wiki esempi ed istruzioni per la copia di file via scp.

T003) Installazione Scientific Linux

Post meeting da Stefano: "Per Scientific Linux non e' stato ancora fatto nulla per il KS, anche perche' ultimamente abbiamo avuto qualche problema di compatibilita' hardware tra questa distribuzione (che utilizza ancora un kernel 2.4.*) e un pc Dell nuovo di Umberto DeSanctis. Probabilmente sarebbe meglio fare una distribuzione con kernel 2.6.* piuttosto che 2.4, ma mi e' stato detto che il Cern non ha ancora rilasciato la versione stabile con questo kernel."

Azioni:

Decidere cosa fare per il futuro, aspettare che atlas transisca a SL 4 con il kernel 2.6?


T004) Back-up al CNAF

Azioni: (pending)

Guido ci fara' sapere quanto spazio e' stato allocato al CNAF per ATLAS sia su disco che su nastro ed eventuali dettagli sulla policy di accesso ai dati su disco/mass storage al CNAF .

Laura indaghera' sull'ipotesi di avere 2 distinti Storage Element al CNAF per ATLAS, uno dedicato ai dati su disco (per file piccoli ed di accesso frequente) ed uno dedicato ai dati su tape(mass-storage)


T005) Installazione locale releases di ATLAS

Ora pcatlpixel monta via nfs sia il disco storage di grid013 che il disco software dal ce. E' anche stata installata la user interface plug-and-play di grid. Primi test di Tommaso sono positivi.

T006) Procedura di "re-start" delle macchine

Azioni:

Luca + Silvia + Tommaso stileranno una lista di operazioni (sulla wiki page) che dovranno essere eseguite ogni volta che si fanno ripartire le macchine.

T011) Login sul CE

Luca parla del problema del CE che e' stato bloccato dal riempimento del file system /var. Questo ha richiesto di fare il reboot del CE, ma come risultato tutti i worker node hanno sperimentato un hang-up di NFS, essendo impossibilitati ad accedere al disco con il software di ATLAS. Questo ha richiesto a sua volta di fare il reboot di tutti i WN e di risottomettere i job persi.

Luca propone di eliminare le login sul CE, ma di installare su macchine specifiche i comandi di sottomissione di job (qsub et similia). Questo non risolve il problema degli hang-up di NFS, ma da una parte riduce il rischio che utenti possano involontariamente bloccare il CE e dall'altra parte semplifica il loro lavoro evitando una login.

Azioni:

Luca: installare i comandi di sottimissione job anche su pcatlpixel.

T009) Spazio disco

Le offerte stanno finalmente arrivando, dopo un'unlteriore proroga al 10 febbraio.

Azioni:

Luca: appena la Campanale e' disponibile, cercare di accelerare al massimo l'acquisto dei dischi.

T010) Monitoring job locali sulla farm

Luca non ha ricevuto informazioni da Laura su DGAS.

Leonardo nota che ci sono molti job di ATLAS sulla farm che sembrano bloccati dopo circa 5' di CPU. Luca pensa sia dovuto al fatto che non riescano a trovare i dati su grid, ma bisogna verificarlo.

Azioni:

Laura: mettere in contatto Luca con i responsabili di DGAS.

Luca: cercare di capire se il problema dei job di ATLAS e' dovuto alla grid o a problemi locali.

T012) Accesso a utenti ATLAS-Italia non-locali

Per creare una collettivita` di utenti di ATLAS-Italia che faccia riferimento al Tier2 di Milano ed eventualmente collabori con la gestione, bisogna decidere se e come garantire a questi una sorta di accesso facilitato alla pari degli utenti locali.

Al momento la limitazione contingente e' lo spazio disco per lo storage locale dei dati e la limitazione al trasferimento via scp.

Azioni:

Attilio: cercare di definire quanti e quali utenti esterni possano essere interessati e proporre una politica di gestione degli account e dell'accesso da remoto.

T013) Collaborazione di gruppi ATLAS-Italia non-locali alla gestione del Tier2

Il punto e' collegato all'argomento precedente, ma in piu' bisogna decidere su quali argomenti un contributo dall'esterno e' utile e fattibile.

Luca suggerisce due item sui quali avere ulteriori persone, anche da remoto, potrebbe essere utile:

  • monitoraggio delle code
  • restart del sistema da remoto, dopo che le macchine sono state riaccese dagli operatori

del servizio calcolo.

Azioni

Attilio+Laura: considerare se organizzare un mini-workshop con gli altri laboratori interessati.


Il prossimo meeting si terra' il martedi' 21 febbraio alle ore 11