12 ting, jeg ville ønske, at jeg ville have kendt, før jeg startede som datavidenskabsmand

Jeg har været dataforsker i lidt over tre år. Jeg bliver bedt om råd om området fra studerende, så her er et par af mine tanker. Først vil jeg liste et par ting, jeg ville ønske, at jeg ville være kendt, da jeg kom ind i feltet, og for det andet mit standardråd til studerende, der gerne vil blive datavidenskabsmænd efter eksamen.

Hvad jeg ville ønske jeg var kendt om datavidenskab

Så mange værktøjer at bekymre dig om, så få du faktisk bruger

'Datavidenskab' er et vagt udtryk, så behandl det i overensstemmelse hermed

Datavidenskab kan dække praktisk talt ethvert kvantitativt arbejde. To dataforskere hos forskellige virksomheder, eller endda inden for den samme virksomhed, kunne udføre helt forskellige typer arbejde. Feltet er gradvist brudt op i mere specifikke jobtitler, såsom dataingeniør, dataanalytiker, maskinlæringsingeniør og så videre. Denne specialiseringsproces vil helt sikkert fremskynde i fremtiden. Når du taler om datavidenskab eller ansøger til job, prøv derfor at finde ud af, hvad den specifikke relevante definition af datavidenskab er for den situation, og sørg for, at den matcher din. Specifikt er det nyttigt at finde ud af, hvad leverancerne vil være i en bestemt datavidenskabelig rolle. Har du brug for at skrive kode, der lever i et produktionssystem? Skal du oprette datapipelinjer? Vil du fremstille analyser af offline data, og i bekræftende fald, hvilken type analyser? At finde ud af, hvilke leverancer du vil være ansvarlig for, er ofte bedre end at læse faktiske jobbeskrivelser, da jobbeskrivelser har en tendens til at blive skrevet for at tiltrække en bred vifte af kandidater til en rolle snarere end virkelig detaljeret, hvad jobbet vil medføre.

Imposter syndrom er en normal del af jobbet

Hver dataforsker oplever imposter-syndrom. Jeg har fundet ud af, at en meningsfuld del af jobbet er at navigere det. Der vil bare altid være ting, som du ikke kender. Som nævnt ovenfor er feltet dårligt defineret, så der er et utroligt stort antal emner, der kan tænkes at falde ind under definitionen af ​​'data science'. Hvis du læser blogs eller Quora, får det det til at føle, at du er nødt til at være i verdensklasse. til enhver evne til at være dataforsker: en Stanford-ph.d.-statistiker, en Google-calibur-ingeniør og en McKinsey-erhvervsekspert, alt sammen indpakket i en. Virkeligheden er, at ingen er perfekte til alt. Selv hvis du på en eller anden måde magisk nok var perfekt til enhver dygtighed, ville du kun bruge en undergruppe af disse færdigheder til hvert projekt, og du ville miste øvelsen med dem, du ikke brugte. Alt hvad du skal gøre for at være en god datavidenskabsmand er at finde en måde at bruge data til at være nyttige. Der er mange forskellige måder at gøre det på. Det er fint at føle imposter-syndrom fra tid til anden. Bare ved, det er normalt, og lad det ikke komme dig ned. Prøv i stedet at omfavne situationer, hvor du har noget nyt at lære som spændende vækstmuligheder, og husk at huske den følelse næste gang du støder på en anden, der ikke ved noget, du gør.

Du behøver aldrig at kende alle værktøjer

Hadoop, Spark, Garn, Julia, Kafka, Airflow, Skoldning, Redshift, Hive, TensorFlow, Kubernetes… der er et tilsyneladende uendeligt antal datasprog, kodningssprog, rammer og værktøjer. Når du ikke tidligere har arbejdet på et data science-job, føles det som om du er nødt til at kende dem alle for at være en reel datavidenskabsmand. Hver gang jeg hørte nogen nævne et værktøj, som jeg ikke kendte i samtalen, plejede jeg tavse internt og lave en mental note for at finde en Coursera-klasse om det emne, jeg kunne binge, stat. Heldigvis kan du med sikkerhed ignorere 99% af de datavidenskabelige værktøjer derude. Til sidst vil din virksomhed have sit eget sæt værktøjer. Alle i virksomheden bliver gode til at bruge disse værktøjer og være helt uklare om de fleste af de andre. Derudover er det ikke noget godt firma, der bryder sig om, hvis du har brugt deres særlige sæt værktøjer før. Medmindre du går efter en virkelig specialiseret rolle, forventer de, at du kan lære deres stak på jobbet. Du skal bare vide nok til at bestå en samtale. Vælg et lille sæt værktøjer, der fungerer for dig. Bliv komfortabel med dem, og bekymre dig ikke om at forgrene dig for meget, indtil du er på et job.

Lær dog dine grundlæggende værktøjer godt

Du behøver ikke at kende ethvert værktøj, men du skal gå dybt ind på de grundlæggende værktøjer, du bruger dagligt. Du vil aldrig fortryde at lære de kedelige dele af uanset SQL-dialekt, som din virksomhed bruger, som hvordan man skriver en optimeret forespørgsel. Hvis du bruger R, skal du lære ind og outs for ggplot2 og dplyr. Hvis du bruger Python, kan du prøve at virkelig forstå pandaer, numpy og scipy. Jeg foregik at kende git i flere måneder, men fik mig altid bundet i git-knob. Til sidst brød jeg sammen og læste en fantastisk tutorial om værktøjet. Derefter følte jeg mig ubesværlig. Hvis du finder dig selv at bruge noget regelmæssigt, skal du tage lidt tid på blot at læse manualen.

Du er ekspert inden for et domæne, ikke kun metoder

Datavidenskab kom til som et kompromis mellem forskningsvidenskabelige roller og forretningsanalytikerroller. Førstnævnte anvendte magtfulde metoder, men påvirkede kun indirekte forretningsbeslutninger, mens sidstnævnte direkte påvirkede virksomhedsejere, men havde begrænsede værktøjer til at gøre det. Datavidenskabsmænd får størst effekt, når de kombinerer begge sider sammen og blander dyb domæne-viden med de rigtige statistiske og tekniske værktøjer til at træffe bedre beslutninger eller nyttige dataprodukter.

Efter min erfaring læner de fleste dataforskere sig for langt i forskningsretningen og ikke langt nok mod forretningsanalytikervejen. De elsker at bruge smarte teknikker, men de investerer i at lære om deres domæne. De går på maskinlæringskonferencer, men deltager mere sjældent på konferencer om, f.eks. Markedsføring eller risiko. Mange dataforskere er ikke engang klar over, at de har et domæne. Ethvert team med akkumuleret viden om, hvad der fungerer og ikke har domænekendskab, og du kan lære om det fra dine forretningspartnere eller ved at tale med lignende teams hos andre virksomheder. At kende dit domæne er halvdelen af ​​slaget, så invester tid der, ligesom du gør for dine 'hårde færdigheder'.

Den vigtigste færdighed er kritisk tænkning

En stor del af ethvert videnopgaver er at bestemme, hvad der er vigtigt og hvad der ikke er. Du kan foretage den perfekte analyse, men hvis det viser sig, at du løste det forkerte problem, eller din indsigt ikke kan bruges, betyder det ikke noget. Det er værd at aktivt bruge tid på at tænke på den bredere kontekst af dit arbejde. Hvad er de vigtigste udfordringer på dit team, og hvorfor? Er din nuværende køreplan den bedste måde at hjælpe dit team, eller skal du ændre din plan? Svarene på disse spørgsmål kan ændre sig over tid, så det er vigtigt at tjekke regelmæssigt. Jeg har set en masse dataforskere marsjer ned ad en sti alt for længe på grund af inerti.

Hvad man skal gøre som studerende for at blive datavidenskabsmand

Tag relevante klasser - ikke kun tekniske klasser

Naturligvis vil statistik og datalogi klasser være nyttige på jobbet. Dog kan masser af klasser være nyttige. Alt, der får dig til at øve dig i at tænke kritisk og fremsætte skriftlige argumenter, såsom filosofi, historie eller engelsk, kan være nyttigt, da det er meget af det, du gør inden for datavidenskab. Samfundsvidenskabelige emner såsom økonomi eller kvantitativ psykologi kan være gode til at få erfaring med at gøre årsagssammenhænge. En klasse, jeg ofte tænker tilbage på, er den overbevisende talende klasse, jeg tog, som jeg påberåber mig regelmæssigt på mit job. Tag din rimelige andel af tekniske klasser, men lær bredt og følg dine interesser. Min strategi var altid at gå sammen med store professorer over store pensum. Jeg vil stadig anbefale det til enhver universitetsstuderende, datavidenskab eller ej.

Øv dig på kommunikation - skriftlig, visuel og verbal

Kommunikationsfærdigheder er meget vigtige og kronisk undervurderet i datavidenskab. Din påvirkning kan kun være så god som dine kommunikationsevner, da du er nødt til at overtale andre til at tage beslutninger eller hjælpe med at opbygge produkter baseret på dine analyser. Derfor er mange meget tekniske datavidenskabs karrierer implicit begrænset, fordi de ikke kan skrive eller tale klart. Øvelse - i alle tre former, skriftlig, visuel og verbal - gør en reel forskel. Tag undervisning med masser af skrivning, især hvis du føler at du er en svag forfatter, eller engelsk ikke er dit første sprog. Mange campus har skrivecentre, der hjælper dig med at få feedback. Det er en ressource, du kan drage fordel af, mens du har den.

Arbejd med reelle dataproblemer

Kaggle er fantastisk til at lære om modellering. Men med Kaggle er den hårdeste del allerede gjort for dig: indsamling, rengøring og definition af problemet, der skal løses med disse data. Den bedste måde at forberede sig på et job som dataforsker er at bruge reelle data til at besvare reelle spørgsmål. Årsagen er enkel: det er det tætteste du kan komme et faktisk job uden faktisk at have et. Find noget, du er interesseret i, og få dine egne data. At skrabe data fra Internettet er meget lettere, end de fleste begyndere er klar over med pakker som BeautifulSoup, Scrapy og rvest. Wikipedia og Reddit er gode mål, hvis du har brug for inspiration, men det bedste valg er noget, du virkelig er begejstret for at udforske. Stil derefter nogle spørgsmål, der interesserer dig, og se, hvor godt du kan besvare dem. Rens dataene, lav nogle grafer og modeller, og skriv derefter dine konklusioner et eller andet sted offentligt. Det går langsomt i begyndelsen, men det er fordi du lærer. Hvis du kan, kan du prøve at løse faktiske problemer i den virkelige verden for mennesker i dit samfund, såsom at udføre statistikarbejde for et skolesporthold eller lave pollinganalyse for skoleavisen for også at få praksis med interessentstyring.

Publicer dit arbejde og få feedback, men du kan

Den eneste måde at blive bedre på noget er at få feedback. Dataarbejde er ingen undtagelse. I disse dage er det så let at lægge notesbøger på Github eller personlige websteder. Hvis du skriver om et emne, som dine venner er interesseret i, kan du lære meget af, hvordan de reagerer. Hvad var overbevisende om din præsentation? Hvad var uklart? Var du i stand til at overtale dem om dit hovedargument? Fik de kedeligt at læse og ikke nå det til slutningen? Afgørende, gør din kode tilgængelig, og prøv at få kodevurderinger fra andre studerende, så du kan gøre hinanden bedre. Hvis du bruger en teknik fra en klasse, du tager, kan du endda vise en professor, hvad du har gjort, og få ekspertfeedback, mens du viser noget initiativ. Og hvem ved, hvis en af ​​dine analyser går viralt på Internettet, kan du endda få et job ud af det!

Gå til begivenheder - hackathons, konferencer, meetups

I det omfang din geografi og dit budget tillader det, kan du prøve at interagere med den udvendige datavidenskabsverden, mens du er studerende. Hvis du gør det, får du en bedre forståelse af feltets realiteter og giver dig et forspring for netværkssamarbejde. Der er data science meetups og hackathons i de fleste større byer, og efter min erfaring er de fleste mennesker meget venlige til studerende til dem. Konferencer har normalt dramatiske rabatter for studerende. At gå sammen med venner kan også gøre en sjov ekskursion sammen!

Vær fleksibel med, hvordan du kommer ind i feltet

Datavidenskab er et konkurrencepræget felt. Der er et begrænset antal teknologivirksomheder med store datavidenskabsmærker, og kampen om deres sommerpraktik og entry-level roller er hård. Når du endda har fået en lille mængde reelle datavidenskabelige arbejdserfaringer, er det meget lettere at få et andet job på området. Dataforskere med et par år under deres bælter, selv fra lidt kendte virksomheder, har ofte lidt problemer med at blive ansat hos topfirmaer. Så hvis du ønsker at være dataforsker, og du ikke får et tilbud lige fra flagermus fra en af ​​de berømte virksomheder, kan du overveje at udvide din jobsøgning. Der er mange virksomheder med interessante problemer at løse.

Tak for at have læst! Jeg ville meget gerne høre dine tanker - pr. Indsamlings-feedbackkugle ovenfor! - så lad dig gerne give en kommentar nedenfor.