Fem interviewspørgsmål til forudsigelse af en god datavidenskabsmand

For dem af os i erhvervet bliver vi konstant mindet om den drastiske mangel på dataforskere. Det vil kun blive værre, før det bliver bedre, da efterspørgslen efter teknologier som maskinlæring, AI og dyb læring er på en sådan opadgående bane. Som et resultat af denne mangel ser vi mange mennesker mærke højt-betalende beskæftigelsesmuligheder og foretage overgangen fra andre erhverv. Som et resultat af dette angreb er problemet for arbejdsgivere klart: Du får ikke altid de bedste kandidater til dine åbne stillinger.

Hvad skal man gøre? Mange virksomheder fremstiller beskæftigelsesannoncer, der tilsyneladende er designet til at skræmme kandidater. Ikke alle kan udfylde rollen som en datavidenskabelig "enhjørning", der kræver en ph.d. inden for datalogi og anvendt statistik sammen med mange års domænespecifik erfaring. Der er selvfølgelig modige sjæle, der ansøger om disse job uden den nødvendige viden og erfaring. Du skal bare effektivt filtrere imposters.

Den korte liste nedenfor er noget, jeg kom med til at blive brugt af at ansætte ledere til datavidspositioner (læs: ikke dataingeniører) for at hjælpe med at udslette de mennesker, der strækker virkeligheden med hensyn til deres evner. Det er rigtigt, at mange teknologivirksomheder vil inkludere forbløffende kodningstest under interviews, men disse spørgsmål er mere nuancerede og fokuserer mere på grundlæggende viden, down-in-the-skyttegrav-oplevelse og datavidenskabelig fornuft. Tanken er at se, om de kender det grundlæggende, kan skabe en levedygtig strategi og praktisk kan løse et problem.

  • Hvad er betydningen af ​​den normale distribution til datavidenskab? Dette spørgsmål er designet til at demonstrere forståelse for et af de mest basale elementer i datavidenskab. Det ville være dejligt, hvis svaret involverede en diskussion af den centrale grænse-sætning, men måske er det for meget at bede om. Og måske er det en overreach at få den matematiske formel for den Gaussiske sandsynlighedsfordelingsfunktion. Men bortset fra at nævne “klokkekurven” ville det være dejligt at høre noget i retning af: dets middelværdi, median og tilstand er alle ens, eller hele distributionen kan specificeres ved hjælp af kun to parametre - middelværdi og varians, eller måske en beskrivelse af dets betydning for lineær regression (arbejdshesten til datavidenskab).
  • Fortæl mig om din lidenskab for datavidenskab. Må du: deltage i lokale møder, deltage i dataudfordringer som Kaggle, arbejde for at bruge data til almindeligt gode som offentlig datahacking, tale på konferencer, skrive bøger eller artikler osv.? Pointen med dette spørgsmål er at afgøre, om kandidaten mener, at datavidenskab er deres rigtige kald. Tænker og drømmer de om data? Ser de et problem og ser øjeblikkeligt efter en løsning, der involverer mønstre i data? Hvilke bøger er der i deres bibliotek? Et relateret spørgsmål er, hvor meget spiller et matematisk fundament for datavidenskab en rolle i, hvordan de tænker på emnet? En datavidenskabsmand, der forstår matematikken bag algoritmerne, vil typisk klare sig meget bedre.
  • Beskriv, at sidste gang du oplevede frustration i et datavidensprojekt, du arbejdede på, og hvordan kom du over det? Ikke alle data-videnskabsprojekter skrider frem svømmetur, da der kan forekomme mange potentielle spærringer. Dette spørgsmål undersøger dybden af ​​deres sande oplevelse, og hvordan de formåede at håndtere uundgåelige problemer. Mennesker med ringe viden og erfaring vil let blive udsat her.
  • Tænk tilbage på et tidligere datavidensligt projekt, du har arbejdet på. Hvis de beføjelser, der bliver bedt dig om at ændre en af ​​dine datakilder, og dermed bruge forskellige forudsigere, hvordan ville du ændre din løsning? Dette spørgsmål vedrører den tidligere rolle, kandidaten har spillet, og hvor godt de tilpassede de ændrede krav, f.eks. Introduktion af nye datasæt. Mange gange får forskere på lavere niveau simpelthen et datasæt med en liste over forudsigere at bruge, uden at give noget input til deres egnethed. Tyngre bidragydere vil på den anden side være involveret i datasætudvælgelse, funktionsudvikling og statistisk analyse. Du vil sandsynligvis have en mere afrundet kandidat til dit hold.
  • Forskning har anført, at 2,3 milliarder mennesker er blevet påvirket af oversvømmelser i de sidste to årtier. Beskriv hvordan du nærmer dig et datavidensprojekt for at forudsige kommende oversvømmelser i de næste 100-500 år. Disse forudsigelser kan bruges til at bygge dæmninger på korrekte steder for at minimere tab. Denne type spørgsmål, eller endnu en tilpasning til din specifikke branche, kræver overvejelse af "datavidsprocessen" inklusive problemformulering, dataindsamling, datakrangling, efterforskende dataanalyse, funktionsudvikling, modellering af dataene (build, fit, og validerer en model) og historiefortælling med resultaterne. Kandidaten skal være tæt kendt med en dataforskers arbejdsgang.

Hvis du leder efter en god datavidenskabsmand mod en der bare hævder en titel, er ovenstående spørgsmål overraskende effektive til hurtigt at skelne mellem de to. Den gode ting ved disse spørgsmål er, at du kan finjustere de acceptable svar med hensyn til din branche eller endda din virksomhed.

- - - - - - - - - - - - - - - - - -

Læs flere datavidenskabelige artikler på OpenDataScience.com, inklusive tutorials og guider fra begyndere til avanceret niveau! Abonner på vores ugentlige nyhedsbrev her og modtag de seneste nyheder hver torsdag.