Kompetenceudvikling, Efteruddannelse

Data Scientist - er det dig?

Hvis du vil være noget i Big Data-verdenen, er Data Scientist vejen frem. Men kan man lære det via online-kurser?

Det er nærmest ved et tilfælde, at jeg går i gang med kurset ”Introduction to R for Data Science”. Jeg er i gang med at researche online-kurser, MOOC og andre muligheder for at blive klogere fra ens hjem, da jeg ser kurset på MOOC-udbyderen edX' website.

"Data Scientist ..." tænker jeg:

"Det er fremtiden i disse Big Data-tider, hvor virksomheder, regeringer og efterretningstjenester høster data som aldrig før for at få bedre indsigt i deres kunders, borgeres og potentielle terroristers liv."

Jeg kan huske en artikel i Harvard Business Review, der proklamerede, at Data Scientist er ”The Sexiest Job of the 21st Century”. Hvem vil ikke gerne være sexet, så da kurset er gratis, og det altid er sjovt at lære et nyt programmeringssprog, tilmelder jeg mig uden større overvejelser.

Ingen planlægning

Allerede inden kurset starter, har jeg begået min første fejl. Jeg har ikke afsat tid i min kalender til at koncentrere mig om R-kurset. 

"Jeg kan jo altid gøre det i morgen," tænker jeg i de situationer, hvor en anden, mere presserende, opgave trænger sig på.

Det er i slutningen af juni, så blandt de mere presserende opgaver er at følge med i EM i fodbold.

"Det er fremragende med et fleksibelt undervisningsformat, hvor jeg selv kan bestemme, hvornår jeg går i gang med det næste modul," tænker jeg og sætter mig til rette foran fjernsynet. 

Video velegnet til syntaks?

Jeg har taget første modul af kurset, hvor grundlæggende syntaks og datatyper i R introduceres.

Instruktøren er Filip, der med spansk accent gør et glimrende job som instruktør – men helt ærligt: De levende billeder giver ikke ekstra værdi. Det er hurtigere at læse om datatyper og syntaks end at sidde og se en video. 

Jeg føler, at jeg spilder min tid. 

I de følgende to moduler om vektorer og matricer eksperimenterer jeg med at køre videoen på dobbelt hastighed. Filip taler nu endnu hurtigere end den allerede betragtelige talehastighed, som hans spanske baggrund giver ham. Det er stadig forståeligt med en snert af indhalér-helium-og-tal.

Filips manuskript er tilgængeligt på edX' website, men det refererer nogle gange til de slides, som vises på videoen, så det er nødvendigt at have begge dele tilgængelige. Der er mulighed for at downloade video, manuskript og slides for hvert enkelt modul, men jeg vælger at se videoerne online – i normal hastighed, beslutter jeg efter at have været nødt til at spole frem og tilbage et par gange, da jeg har misset nogle af den speedsnakkende Filips pointer.

Kig efter dine globale sidekammerater 

Efter hver video er der en lille quiz i form af multiple choice-spørgsmål. Spørgsmålene er ikke svære og holder sig til det, som Filip netop har gennemgået på videoen. Det sjoveste og mest lærerige er lab-øvelserne. Her får jeg lov til at boltre mig i en interaktiv R-editor og eksperimentere med de forskellige datastrukturer og funktioner.

Sent i forløbet opdager jeg et diskussionsforum, som kan tilgås fra den interaktive R-editor. Forummet anvendes blandt andet til at udveksle kode-løsninger. Det er en god idé, hvis man er kørt fast, men også en risiko for svage sjæle, der kan blive fristet til at copy-paste kode uden reelt at forstå, hvad koden gør. 

 
Slutspurt inden deadline

Chok.

En email fra edX fortæller mig, at deadline for at fuldføre kurset nærmer sig. Den deadline havde jeg overset, da jeg nonchalant tilmeldte mig. Jeg har et par dage tilbage, inden kurset slutter, og jeg mangler tre et halvt moduler. Selvom min research om online-kurser fortæller mig, at gennemførelsesgraden for online-kurser er meget lav i forhold til rigtige face-to-face-kurser, så vil det være pinligt at skrive en artikel om et kursus, jeg ikke fuldfører. Jeg klør på og afslutter de resterende moduler om listestrukturer, data frames og grafik de følgende dage.

Var det noget værd?

Videopræsentationerne fungerede ikke for mig. Jeg lærer hurtigere og bedre ved at læse en pædagogisk gennemgang af et sprog – især når det er grundlæggende syntaks og datastrukturer. Eksempelvis har jeg en app, ”Learn Python”, som uden video, men med gode eksempler gennemgår Pythons features. Den er fremragende.

Skal man lære et nyt programmeringssprog, er det vigtigste, at man rent faktisk skriver noget konkret kode og har mulighed for at eksperimentere med koden. Her fungerede den interaktive kode-editor fortrinligt.

Der er ingen tvivl om, at jeg har fået et grundlæggende kendskab til R, men som alle erfarne udviklere ved, så er én ting at lære syntaksen for et nyt programmeringssprog, mens det er noget helt andet at kunne designe og programmere løsninger, der løser et konkret problem i virkeligheden. Jeg er ikke i stand til at lave en Big Data-applikation i R på baggrund af kurset, men det er da også beskrevet som et introduktionskursus.  

Vejen til Data Scientist

Derfor er jeg interesseret, da jeg kort efter at have afsluttet kurset modtager en mail fra edX. Den fortæller mig, at jeg kan tage et helt Data Science Curriculum, som er udviklet af Columbia University og Microsoft. Det indeholder nogle af de mere domæne-orienterede aspekter som ”Anvendelse af statistiske metoder på data”, ”Anvendelse af en data science-metode”, ”Opret og valider machine learning-modeller” samt ikke mindst ”Implementer en machine learning-løsning for et givent dataproblem”.

Der er ni kurser i alt af nogenlunde samme omfang som mit introduktionskursus og så et afsluttende projekt, hvor alle de nyerhvervede færdigheder skal afprøves. Prisen varierer fra 49 til 99 dollars pr. kursus, så det sprænger ikke budgettet. Nu, hvor sommerferie, EM og OL er overstået, kan det være, at jeg vil gå i gang med kurset. 

Efter at jeg har afsat tid til kurserne i min kalender.