Et teknisk kig på, hvordan kriminelle bruger AI

Maskinlæring er en af ​​de mest spændende nye funktioner, der anvendes i teknologi i dag. Men det er uden tvivl også kontroversielt. I øjeblikket kommer denne kontrovers ikke rigtig fra udsigten til, at ultra-intelligente robotter dramatisk overtager den menneskelige race; i stedet skyldes det, at magtfuld teknologi som denne kan bruges lige så negativt af kriminelle, da den kan bruges positivt af dem med god intention. I dette stykke vil jeg gerne udforske den mørkere side: hvordan kriminelle bruger AI ulovligt.

Inden computere havde evnen til at løse heuristiske problemer, blev mange sikkerhedssystemer designet med det princip, at dette ikke ville ændre sig. Ideen om, at en computer kunne gætte et kodeord, læse en grafisk Captcha eller lære, hvordan reel trafik opfører sig, blev simpelthen ikke taget i betragtning. Nu er vi omgivet af sikkerhed, der er skubbet forældet af AI.

Captchas og billedklassificering

Der er mange, mange gange, et system skal til for at bekræfte, at en bruger faktisk er et menneske. Dette skyldes, at al funktionalitet, som en computer tilbyder et menneske, også kan bruges eller simuleres af et computerprogram. Hvis du forsøger at logge ind på Facebook mere end tre gange, vil du bemærke, at Facebook beder om at bekræfte, at du er et menneske, og ikke et computerprogram, der forsøger at indtaste millioner af adgangskoder et sekund. Den måde Facebook og mange tjenester gør dette på er via en captcha-metode:

I årevis skilte disse med succes programmer fra mennesker, indtil AI fulgte med. Nu kan grundlæggende indviklede neurale netværk bruges, hvor der bruges et enormt datasæt med captcha-billeder. Hver captcha har et specificeret mål, og efter træning af en konvnet kan de udarbejde foreslåede captchas i fremtiden. Dette er et mere trivielt eksempel, hvor de grundlæggende principper i neurale netværk er alt, hvad der kræves. Nu, hvor captchas kan omgås, er brute force-angreb meget mere mulige. Du er muligvis også kommet over "select alle billeder, der indeholder en bus" captcha, som er lige så let for AI at omgå. Vi ved alle, hvor stor objektdetektion er - Google, selvom den integreres i deres søgemaskine som en meget grundlæggende og vellykket funktion.

Adgangskoder med generative adversarial netværk

De færreste af os har adgangskoder, der ser sådan ud: 5f2 # V0 ”P? Oz3

Flere af os har adgangskoder, der ser sådan ud: Kronenbourg1664

Og resten af ​​os har endda adgangskoder, der ser sådan ud: adgangskode

Det er stadig tilfældet, at dem, der følger mit første eksempel, er meget sikre på, at deres adgangskoder gættes af et menneske eller en GTX 1080 GPU. Imidlertid er alle andre sårbare. Så hvordan kan disse adgangskoder gættes? Vi kunne simpelthen bruge en ordbog og anvende hvert ord på et kodeordinput. Vi kan måske lykkes med en meget lille procentdel af vores forsøg - på grund af de mennesker, der følger mit sidste eksempel. Hvis du er en af ​​disse mennesker, har jeg fuld tillid til, at du ændrer din adgangskode ved udgangen af ​​denne artikel.

Lad os nu se på den mere moderne og endda uhyggelige tilgang (naturligvis ved hjælp af AI). I stedet for at bruge en ordbog bruges neurale netværk til at producere en enorm liste over sandsynlige adgangskoder. Det er denne liste, der bruges til at anvende til en godkendelsesformular. Taget fra PassGAN: En dyb læringsmetode til at gætte adgangskode, her er, hvordan denne liste kan produceres:

Hvis du er bekendt med neurale netværk (som jeg må nævne er ganske vigtig for de følgende par stykker), kan dette stadig se usædvanligt ud. I stedet for blot at forudsige et element baseret på et input, lærer vi af data og lærer derefter en generator til at producere flere yderligere eksempler. Dette er kendt som et generativt adversarialt netværk, hvor der anvendes to neurale netværk; en til at differentiere korrekte og forkerte input, og derefter en, der lærer af dette at producere nye korrekte data via tilfældig støj.

For det første bruger vi et eksisterende datasæt, der indeholder virkelige menneskelige adgangskoder, måske fra en historisk adgangskodelækage, der siden er gjort tilgængelig. Disse vil samlet demonstrere, hvordan menneskelige adgangskoder ser ud (et par store bogstaver, en dato, et tilfældigt tal, et navn osv.).

For det andet bruger vi en støjgenerator (G), der (ved første) vil udsende tilfældige data. Disse to mulige input (falske og reelle adgangskoder) er input til det neurale netværk (eller Discriminator D). Målene er designet som enkle binære output. Dette betyder, at det neurale netværk under træning får at vide, om det indtastede kodeord er en falsk eller reel. På hver fremad fremføring sammenlignes den producerede outputværdi derefter med målværdien (sandheden) og spreder derefter tilbage for at justere vægtværdierne baseret på fejlmargenen. Generatoren bliver også påvirket af dette, da det er tilfældig inputstøj, der begynder at optimere tættere på adgangskodeudgange.

Når generatoren er skiftet, vil yderligere støj, der indføres i netværket, resultere i strenge, der ligner adgangskoder. Så hvis vi lader det køre i et par timer, kunne vi udarbejde en kæmpe liste med intelligent samlet kodeord.

Phishing

Phishing er en meget almindelig form for hacking. Har du nogensinde modtaget en e-mail, der ikke ser helt rigtig ud, men som hævder at være din bank-, telefontjeneste eller sociale medieplatform? Enhver nybegynder-programmør, der kender lidt HTML kombineret med blot et strejf af backend-kode som PHP, kan trække denne ud. Det involverer at sende en e-mail, der er visuelt designet til at ligne, siger, Facebook og bruge lignende formelle sprog. Det hævder, at du skal opdatere, se eller ændre noget, og bede om dine loginoplysninger for at gøre det. Uanset hvad du indtaster sendes til den kriminelle server. Alligevel, hvordan kommer AI ind i dette?

Maskinlæring kan forbedre phishing ved at gennemgå en hvilken som helst platform, lære hvordan de ser ud og kommunikere sprog og derefter masseprodusere falske e-mails baseret på visse observationer, der automatisk sendes ud i stor skala. Dette er dog ikke den eneste måde. Hackere kan også bruge de samme principper, der er beskrevet tidligere til at gætte adgangskoder, til at gætte e-mail-adresser. Der kan produceres millioner af e-mail-adresser, hvilket øger chancen for at finde teknisk godtroede mennesker.

Mange e-mail-tjenester, nemlig Gmail, har avancerede systemer til at registrere phishing-e-mails, men maskinlæring kan imidlertid bruges til at oprette e-mails, der ikke bliver opdaget af disse systemer. Træningssættet ville være en samling af e-mails, hvoraf nogle ikke nåede en bruger på grund af phishing-registrering, og andre, der var succesrige. et neuralt netværk kan lære, hvordan phishing opdages, ved at forstå, hvilke der blev fanget, og hvilke der ikke var. I fremtiden kunne e-mails genereres baseret på regler, der ikke fanges ud af phishing-registrering, se her for reference.

Konklusion

For det første er dette kun tre tilfælde. Desværre er der meget mere på andre områder, såsom falske reklamer, simulering af falsk trafik og mere. Jeg kan dog gerne tro, at brugen af ​​AI i den juridiske verden i høj grad opvejer den kriminelle verden. Ironisk nok bliver AI brugt til at opdage kriminel aktivitet på mange fantastiske måder fra gadeovervågning til online-svig. For at afslutte, skal du ændre din adgangskode, hvis et generativt modstandernetværk kunne gætte det; skal du ikke følge de links, der er sendt til dig, medmindre du har kontrolleret afsenderidentifikationen dobbelt; og til sidst må du ikke bruge nogen af ​​disse teknikker selv til at bryde loven!

- - - - - - - - - - - - - - - - - -

Læs flere datavidenskabelige artikler på OpenDataScience.com, inklusive tutorials og guider fra begyndere til avanceret niveau! Abonner på vores ugentlige nyhedsbrev her og modtag de seneste nyheder hver torsdag.