25 sjove spørgsmål til en maskinlæringssamtale

Kan spørgsmål om maskinlæring samtale være sjove og dybe på samme tid?

Billedkilde: https://xkcd.com/1838/

Mange af dataforskerne studerer maskinlæring (ML) mest fra en datapraktisers synspunkt. Derfor er det muligt, at vi fokuserer på at lære om så mange nye pakker, rammer, teknikker som muligt og koncentrerer os mindre om en dyb gennemgang af de centrale teoretiske aspekter. Og her omfatter min definition af maskinlæring al den statistiske standardlæring (dvs. den udgør ikke kun dyb læring).

Imidlertid kan man undersøge og overveje med en vis indsats så mange vidunderlige ML-spørgsmål, som, når de besvares og analyseres, kan afsløre dybere aspekter smukt. Grundlæggende kan disse spørgsmål hjælpe os med at få hovedet ud af denne bunke, der er vist ovenfor. Vi ønsker bare ikke at røre et datasæt hele dagen lang, vi vil dykke dybt ind i egenskaberne, besynderheder og forviklinger ved maskinindlæringsteknikker og omfavne dem…

Når alt kommer til alt er der masser af artikler på Internettet om "almindelige interviewspørgsmål til maskinlæring". Kan vi gøre lidt anderledes og interessant?

Ansvarsfraskrivelse: Jeg lægger bare spørgsmålene til tænkning og stimulerende diskussion. Intet færdig svar gives. Nogle spørgsmål har et tip, men de er virkelig til mere diskussion snarere end et endeligt svar. Hvert spørgsmål er værd at diskutere mere detaljeret. Der er ikke noget fast svar. Nogle spørgsmål er foragtede, andre er bare for sjov. Bare nyd :-) For at starte, har jeg indsat et sjovt meme efter hvert 5. spørgsmål ...

Sjove spørgsmål

  • Jeg byggede en lineær regressionsmodel, der viste 95% konfidensinterval. Betyder det, at der er en 95% chance for, at mine modelkoefficienter er det rigtige skøn over den funktion, jeg forsøger at tilnærme mig? (Tip: Det betyder faktisk 95% af tiden ...)
  • Hvad er ligheden mellem Hadoop-filsystem og k-nærmeste nabo-algoritme? (Tip: 'doven')
  • Hvilken struktur er mere kraftfuld med hensyn til udtryksevne (dvs. den kan repræsentere en given boolsk funktion nøjagtigt) - et per-lags perceptron eller et 2-lags beslutningstræ? (Tip: XOR)
  • Og hvilken er mere kraftfuld - et 2-lags beslutningstræ eller et 2-lags neuralt netværk uden nogen aktiveringsfunktion? (Tip: ikke-linearitet?)
  • Kan et neuralt netværk bruges som et redskab til reduktion af dimensionalitet? Forklar hvordan.
  • Alle ondskabsfulde og bagatelliserer opsnittet i en lineær regressionsmodel. Fortæl mig en af ​​dets hjælpeprogrammer. (Tip: støj / affaldsopsamler)
  • LASSO-regulering reducerer koefficienter til nøjagtigt nul. Ridge regression reducerer dem til meget lille, men ikke-nul værdi. Kan du forklare forskellen intuitivt fra plottene med to enkle funktioner | x | og x²? (Tip: De skarpe hjørner i | x | plottet)
  • Lad os sige, at du ikke ved noget om den distribution, hvorfra et datasæt (kontinuerligt værdsatte numre) kom, og det er forbudt dig at antage, at det er normal gaussisk. Vis med enklest mulige argumenter, at uanset hvad den sande distribution er, kan du garantere, at ~ 89% af dataene ligger inden for +/- 3 standardafvigelser væk fra middelværdien (tip: Markovs ph.d.-rådgiver)
  • Størstedelen af ​​maskinlæringsalgoritmer involverer en slags matrixmanipulation som multiplikation eller inversion. Giv et simpelt matematisk argument for, hvorfor en mini-batch-version af en sådan ML-algoritme måske er beregningsmæssigt mere effektiv end en træning med fuldt datasæt. (Tip: Tidskompleksitet i matrixmultiplikation ...)
  • Tror du ikke, at en tidsserie er et rigtig enkelt lineært regressionsproblem med kun en responsvariabel og en enkelt forudsigelse - tid? Hvad er problemet med en lineær regressionspasning (ikke nødvendigvis med et enkelt lineært udtryk, men endda med polynomiale udtryk) tilgang i tilfælde af en tidsseriedata? (Tip: Fortid er en indikator for fremtid ...)
  • Vis ved simpelt matematisk argument at det at finde de optimale beslutningstræer til et klassificeringsproblem blandt alle mulige træstrukturer kan være et eksponentielt hårdt problem. (Tip: Hvor mange træer er der alligevel i junglen?)
  • Både beslutningstræer og dybe neurale netværk er ikke-lineær klassifikator, dvs. de adskiller rummet ved kompliceret beslutningsgrænse. Hvorfor er det så meget lettere for os at intuitivt følge en beslutningstræsmodel kontra et dybt neuralt netværk?
  • Tilbageudbredelse er arbejdshesten ved dyb læring. Navngiv et par mulige alternative teknikker til at træne et neuralt netværk uden at bruge tilbagespredning. (Tip: Tilfældig søgning ...)
  • Lad os sige, at du har to problemer - en lineær regression og en logistisk regression (klassificering). Hvilken af ​​dem er mere sandsynligt, at der drages fordel af en nyopdaget supersnabb stor matrixmultiplikationsalgoritme? Hvorfor? (Tip: Hvilken af ​​dem er mere tilbøjelige til at bruge en matrixmanipulation?)
  • Hvad er virkningen af ​​sammenhæng mellem prediktorer på analyse af den vigtigste komponent? Hvordan kan du tackle det?
  • Du bliver bedt om at opbygge en klassificeringsmodel om meteoritterpåvirkning med Jorden (vigtigt projekt for menneskelig civilisation). Efter en foreløbig analyse får du 99% nøjagtighed. Skal du være lykkelig? Hvorfor ikke? Hvad kan du gøre ved det? (Tip: Sjælden begivenhed ...)
  • Er det muligt at fange sammenhængen mellem kontinuerlig og kategorisk variabel? Hvis ja, hvordan?
  • Hvis du arbejder med genekspressionsdata, er der ofte millioner af prediktorvariabler og kun hundreder af prøver. Giv enkle matematiske argumenter for, hvorfor almindelig-mindst-kvadrat ikke er et godt valg i en sådan situation, hvis du bygger en regressionsmodel. (Tip: Nogle matrixalgebra…)
  • Forklar, hvorfor k-fold krydsvalidering ikke fungerer godt med tidsseriemodellen. Hvad kan du gøre ved det? (Tip: Umiddelbar fortid er en tæt indikator på fremtiden ...)
  • Enkel tilfældig sampling af træningsdatasæt i trænings- og valideringssæt fungerer godt til regressionsproblemet. Men hvad kan gå galt med denne tilgang til et klassificeringsproblem? Hvad kan der gøres ved det? (Tip: Er alle klasser udbredt i samme grad?)
  • Hvilket er mere vigtigt for dig - modelnøjagtighed eller modelydelse?
  • Hvis du kunne drage fordel af flere CPU-kerner, ville du foretrække en boostet-træ-algoritme frem for en tilfældig skov? Hvorfor? (Tip: hvis du har 10 hænder til at udføre en opgave, drager du fordel af den)
  • Forestil dig, at dit datasæt vides at være lineært adskilt, og du er nødt til at garantere konvergensen og det maksimale antal iterationer / trin i din algoritme (på grund af beregningsressourceårsagen). Vil du vælge gradientafstamning i dette tilfælde? Hvad kan du vælge? (Tip: Hvilken enkel algoritme giver garanti for at finde en løsning?)
  • Lad os sige, at du har en ekstremt lille hukommelse / lager. Hvilken type algoritme foretrækker du - logistisk regression eller k-nærmeste nabo? Hvorfor? (Tip: Rumkompleksitet)
  • For at opbygge en maskinlæringsmodel havde du oprindeligt 100 datapunkter og 5 funktioner. For at reducere bias fordoblede du funktionerne til at inkludere 5 flere variabler og indsamlede 100 flere datapunkter. Forklar, om dette er en rigtig tilgang? (Tip: Der er en forbandelse over maskinlæring. Har du hørt om det?)

Hvis du har noget andet sjovt ML-spørgsmål eller ideer at dele, bedes du kontakte forfatteren her. Gode ​​spørgsmål er svære at generere, og de giver anledning til nysgerrighed og tvinger en til at tænke dybt. Ved at stille sjove og interessante spørgsmål gør du læringsoplevelsen underholdende og berigende på samme tid. Håber du nød dette forsøg på at gøre det.