Tek.no

Artikkel

Slik håndterer man 100 millioner gigabyte data

Se datasenteret som jobber med verden største fysikkeksperiment.

Jørgen Elton Nilsen
30 Okt 2013 09:00

Datasenteret i Sveits

Denne saken er tidligere publisert, men republisert til glede for nye lesere.

Hardware.no/Genève: Flere hundre millioner ganger hvert eneste sekund kan ørsmå partikler frontkollidere med tilnærmet lysets hastighet i Large Hadron Collider – det gigantiske partikkeleksperimentet som ligger på grensen mellom Frankrike og Sveits, hos CERN. Hver og en av disse kollisjonene skaper mindre partikler som igjen kan bryte ned til enda flere partikler. På de fire punktene i LHC der disse kollisjonene finner sted, står det plassert flere gigantiske detektorer som måler denne nedbrytningen, ved å fange et bilde av hvordan partiklene beveger seg gjennom en serie med forskjellige instrumenter.

sitat"De fire store eksperimentene produserer ufattelig store datamengder"

– Datautfordringen for LHC er at vi har disse fire store eksperimentene som produserer ufattelig store datamengder når vi kjører kollisjoner i akseleratoren, slår Nils Høimyr fast. Han er seksjonssjef i CERNs IT-avdeling, avdelingen som har ansvaret for å håndtere disse ubegripelig store datamengdene.

Disse dataene, som beskriver hvordan hver eneste lille partikkel fra hver eneste av de gjerne 600 millioner kollisjonene i sekundet, skal filtreres, lagres og analyseres – og de siste to punktene er en massiv utfordring å få til. Når LHC jobber på full spiker kan det samle seg opp over 30 petabyte med verdifull rådata i året – og alt dette skal analyseres ned til minste detalj. Datamengende det er snakk om her, og prosessorkraften som må til, er så av en skala det er vanskelig å fatte. Men takket være et et intrikat nettverk av flere hundre regnesenteret rundt om på hele jordkloden, har CERN fått det til.

Nils Høimyr er seksjonsleder ved CERNs IT-avdeling.

Allerede under de første stadiene av planleggingen for LHC, tilbake på 80-tallet, skjønte IT-avdelingen at det ikke fantes noe tenkelig datasenter i verden som ville være i stand til å lagre alle dataene, og samtidig analysere dem. Det eneste man kunne gjøre var å håpe at utviklingen på IT-siden, av prosessorer og datalagring, ville fortsette i samme rivende hastighet, slik at når LHC en gang ble ferdig ville IT-teknologien bli god nok til å kunne håndtere datamengdene fra LHC-detektorne.

I 2002, syv år før akseleratoren først ble startet, lå den eneste realistiske løsningen klar. CERN ville ta i bruk det som kalles grid-distribuering og dele den massive oppgaven utover hele verden. CERN Grid ble dannet, et globalt nettverk av datasentre som i sanntid distribuerer, lagrer og analyserer de enorme datamengdene. I hjertet av det hele står CERNs eget datasenter, og det er her vi nå er på besøk.

Det store knutepunktet

Dette datasenteret er knutepunktet for den globale distribusjonen av data, og er et Tier-0-senter. Over to etasjer, der hovedetasjen måler 1450 kvadratmeter, står kraftigere servere og helautomatiske lagringssystemer på døgnet rundt. Frem til i år hadde senteret en kapasitet på 2,9 megawatt, men det har nå blitt oppgradert til 3,5 megawatt slik at man kan installere flere maskiner.

Maskinene her brukes hovedsakelig til fire ting: Analyse av dataene fra LHC, lagring av alle dataene LHC produserer, distribusjon av disse dataene, og i tillegg skal et eget batteri med servere håndtere simulering og en rekke støttesystemer som forskerne på CERN trenger i sitt daglige arbeid.

Datasenteret er riktig nok ikke det eneste på CERN. På hvert kollisjonspunkt står det et – relativt sett – lite datasenter som filtrerer data. Noen ganger fanger detektoren opp støy, og andre ganger har ikke partiklene hatt en skikkelig frontkollisjon, og slike data er uinteressante for forskerne. Dedikert elektronikk filtrerer vekk og fjerner disse dataene før de i det hele tatt kommer inn i databehandlingssystemet til CERN. Dette datasenteret er derfor det første kontaktpunktet for de dataene som faktisk skal brukes.

– Vi får inn en datastrøm som varierer fra rundt 100 megabyte i sekundet og faktisk opptil et par gigabyte i sekundet når vi kjører ioneforskning i Alice-detektoren. Funksjonen til dette Tier-0-senteret er å ta i mot data fra eksperimentene, også er det et slags knutepunkt for Grid-en, sier Høimyr.

– Vi har 10 000 flerprosessorservere med 90 000 prosessorkjerner, men det er bare nok til å håndtere 15 prosent av analysen av LHC-dataene. Rollen til disse Tier-1-sentrene er da å ta imot kopier av alle disse dataene, stå for ekstra regnekraft, og så gir de en redundanse i lagringen av data fra LHC.

Mens Tier-0-senteret tar imot og gjør en liten del av analysejobben, skal Tier-1 gjøre mye av det samme – men med Tier-1 har belastningen blitt spredt utover 11 forskjellige datasentre. De fleste ligger i Europa, men de er også å finne både i Amerika og Asia.

– Vi kopierer ut data som skal analyseres til disse Tier-1-sentrene, også har vi Tier-2-senterne som består av omtrent 180 universiteter, som Universitetet i Oslo, Bergen, Trondheim og Peking, der fysikerne gjør sin simulering. Dataene blir da hentet fra det nærmeste Tier-1-senteret, forteller Høimyr.

Heng med over til neste side, så skal du få se hvordan 100 petabyte med data håndteres »

Les også