Genvejsmenu:
S - Indhold
1 - Forside
2 - Aktuelt
3 - Oversigt
4 - Søg

Sorter efter emne

A-kassen

(118)

Andet

(57)

Android

(13)

Bagsiden

(20)

Big data

(1)

Chile

(5)

CSC-konflikt

(105)

CSC-sagen

(7)

DF2012

(9)

Diverse

(47)

Hackere

(8)

Hardware

(148)

HTML5

(8)

Internet

(315)

IT-politik

(144)

Jobkort

(24)

Klausuler

(18)

Løn

(47)

Mainframe

(4)

Museskader

(18)

Nyt job

(22)

Open Source

(172)

Ophavsret

(60)

Prosabladet

(725)

PROsit

(13)

Senior

(19)

Seniorjob

(1)

Software

(215)

Studerende

(29)

Uddannelse

(142)

Wikileaks

(7)

Skjul

01.06.12   |   kl. 08:15   |   Aktuelt, Prosabladet

Biodata overhaler Moores lov

Om otte måneder har verden dobbelt så mange data på det biologiske område, som der er blevet skabt siden 1960'erne. Den eksplosive vækst sætter pres på computerudviklingen.

Datamængden inden for biovidenskaberne vokser så eksplosivt, at væksten har overhalet Moores lov. Det giver store udfordringer for de it-systemer, der skal behandle de gigantiske datamængder.

Den udfordring mærker forskerne på Center for Biologisk Sekvensanalyse på DTU. Centeret, der er blandt de største af slagsen i Europa, anvender it-metoder til at analysere biologiske data. Det kan være data om dna, proteiner, celler og andet, der indgår i levende organismer.

– Datamængden fordobles i løbet af mindre end otte måneder. Dermed har vi for længst overhalet Moores lov, hvor datakraften fordobles hver attende måned. Tidligere kunne vi sagtens styre datamængderne, men nu giver det problemer, fortæller lederen af centeret, professor Søren Brunak, DTU.

Han betegner bioinformatikken som en "disruptive disciplin". Det betyder en teknologi, der medfører fundamentale omvæltninger. For eksempel giver analyser af gener mulighed for at målrette medicinsk behandling: I fremtiden kan man ud fra viden om en patients gener vide, hvilken behandling der vil virke bedst mod brystkræft.

Men for at det kan lade sig gøre, skal dataene behandles. Og det kræver både regnekraft og lagerplads. Samtidig betyder de store datamængder, at det ikke er praktisk muligt at sende dem over store afstande over netværk. Når de her data skal flyttes, sker det i containere med fly og lastbil.

Målinger giver data

Systemchef Kristoffer Rapacki har været med, siden centeret åbnede i 1993. Han fortæller, at biodata fuldt ud lever op til definitionen for big data med de tre V'er: Volumen, velocity (hastighed) og variation:

– Vi har en eksplosion i datavolumen. Den startede med sekvensanalyser, hvor man søger efter den biologiske betydning af dna-, rna- og proteinsekvenser. Senere kom hastighed til som en ny udfordring, hvor data ankommer hurtigt. Det skyldes især, at der er udviklet nye måleværktøjer. For eksempel kan man nu estimere mængden af et protein i en celle – og se udviklingen over tid. Endelig har vi fået en stor variation i data i forhold til starten, hvor vi kun kiggede på dna-, rna- og proteinsekvenser, fortæller han.

De nye måledata om cellernes proteinindhold ankom så hurtigt, at et af centerets datalagre på 100 TB blev fyldt op hurtigere end ventet. Den slags sætter pres på budgetterne. For tiden har centeret 400 TB datasæt.
Variationen er en udfordring, fordi området savner standarder. Derfor kan der gå unødvendig tid med at konvertere mellem dataformater.

– Det er også en udfordring, at mange af programmerne på området ikke er velskrevne. De får udført opgaven, men der er ikke tid til at sikre, at det sker på den bedste måde. Ofte skrives programmerne af forskere, hvis baggrund er biologien, ikke datalogien. Deres fokus er de videnskabelige resultater, ikke softwareudvikling. Derfor udnytter de ikke hardwaren optimalt, og der kan være fejl og uhensigtsmæssigheder i koden, siger Kristoffer Rapacki.

Otte terabyte delt RAM

Arbejdet med at analysere store mængder af biologiske data går hurtigst, hvis man kan have alle de nødvendige data tilgængelige i RAM på én gang. Det kræver gigantiske mængder RAM. For et år siden købte centeret derfor en supercomputer med otte terabyte RAM.

– Den gør, at vi nu kan løse en opgave på timer, hvor det før ville tage flere dage, siger Kristoffer Rapacki.

For at det kan lade sig gøre for alle processorer at tilgå hele arbejdslageret, er noderne i computeren forbundet med en højhastighedsforbindelse ved navn NUMAlink 5. Den har en maksimal båndbredde på 15 GB/s. Processorerne er Intel Xeon-CPU'er med i alt 512 kerner.

– Vi har eksperimenteret med mere specialiseret hardware som for eksempel FPGA'er (Field-Programmable Gate Array, red.). Men den fleksibilitet, som standardprodukterne giver, har hidtil været mere værd end den gevinst i hastighed, en FPGA eventuelt kunne give. Så vi holder os til standardudstyr med Linux, siger han.

På storagesiden anvender centeret SAN (Storage Area Network) baseret på Fibre Channel. Herpå kører der clusterede filsystemer.

– Vores politik er, at vi kører Linux-servere i cluster, hvor det er muligt, og med delt memory, hvor det er nødvendigt, forklarer han.

Fælles europæisk net på vej

Et af de store forskningsprojekter på området var kortlægningen af det menneskelige genom. Det arbejde tog 10 år og kostede 20 milliarder kroner. I dag kan den samme opgave løses for 25.000 kroner. Så informationsteknologien er fulgt med – datamængden vokser bare hurtigere.
Den vokser i dag så hurtigt, at de nationalt baserede forskningscentre snart må opgive at følge med på egen hånd. Det mener Søren Brunak, der er involveret i at oprette et europæisk samarbejde på området. Han sidder i styregruppen for projektet ELIXIR:

– Vi vil opbygge og drive en europæisk infrastruktur for biodata. Vi har erkendt, at det enkelte universitet og ikke engang det enkelte land kan håndtere de her datamængder. Danmark er et af de foreløbig 11 lande, der er med i arbejdet, fortæller han.

ELIXIR-systemet bliver opbygget med en central hub i Storbritannien og distribuerede noder i forskningscentre rundt om i Europa. Den centrale administration skal blandt andet oprette registre over data og udvikle standarder for dataformater.

Noderne skal stå for at opbevare data og stille regnekraft til rådighed for samarbejdet.

– Foreløbig har 57 organisationer i 24 lande vist interesse for at blive node i netværket, siger Søren Brunak.

  • Eksplosiv vækst

    European Nucleotide Archive (ENA) er en af de databaser, der mærker vækstproblemerne. Databasen rummer sekvensdata om nukleotider. I 2007 havde den 1,7 milliarder dataposter. Tre år senere var tallet vokset til godt 500 milliarder. I dag fylder nukleotide-dataene over 20 terabyte - og når man kobler de tilhørende metadata på, bruges der over 230 terabyte diskplads.

PRINT

Kommentarer

Der er endnu ikke skrevet kommentarer til artiklen

God tone i debatten

Deltag i debatten

CAPTCHA billede for SPAM beskyttelse

Relevante links

 

Skrevet af:

Torben B. Sørensen

Kommenter artiklen