Alle de data, vi har mistet til inkompatible API'er.

Kronikker af vores data gennem tiden.

Går vi mod de mørke tidsalder?

I februar 2015 udsendte Vint Cerf, også kendt som internetets far, en advarsel til menneskeheden - om en mulig mørk tidsalder og en mistet generation, simpelthen fordi fremtidens systemer ikke vil være i stand til at gengive nutidens filer .

”Vi kaster nonchalant alle vores data ind i det, der kunne blive et informationssorte hul uden at vide det. Vi digitaliserer ting, fordi vi tror, ​​vi vil bevare dem, men det, vi ikke forstår, er, at medmindre vi tager andre skridt, er disse digitale versioner muligvis ikke bedre og måske endda værre end de artefakter, som vi digitaliserede, ”

Nedbrydning af filer, simpelthen fordi nyere software / hardware ikke forstår det format, det blev skrevet i, kaldes Bit Rot og sker med hver ny generation af lager, processorer eller software, der følger med og gør den foregående inkompatibel og forældet.

NASA oplyste for nylig, at de har mistet adgangen til masser af data fra landingerne med den tidlige måne, fordi maskinerne, der blev brugt til at læse båndene, blev skrotet og ikke kan genopbygges.

Vi mister, i nogle tilfælde adgang til over 80% af videnskabelige data fra de tidlige computerdage og ofte ikke engang klar over det, og dette er ikke et problem i en fjern fremtid .. vi kan ikke længere spille mange videospil fra 90'erne, fordi konsollerne er inkompatible eller forhandlerne ikke længere er der. Hurtigt skiftende standarder kombineret med det faktum, at vi ødelægger fysiske kopier af gammel tekst, mens vi bevarer "digitale kopier", betyder, at vi risikerer at slette ikke kun vores tids kronikker, men historien selv.

Falder vi baglæns i tiden?

Historierne om de tidligste mennesker, der er ætset i sten på indersiden af ​​hulerne, har overlevet i tusinder af årtier.

Da vi først begyndte at skrive, brugte vi lertabletter, der i nogle tilfælde overlevede i tusinder af år, derefter skiftede vi til et papirmedium, det er mere praktisk at gemme information på papir, men det forfalder også hurtigere og de eneste papirskrifter, vi finder i dag er dem, der var blevet omhyggeligt bevaret gennem tiden og i en eller anden forstand ”anset for vigtige”.

Papirskrifter og lertabletter havde imidlertid ikke en stor omkostning til at hente data, da enhver, der kunne læse og forstå sproget, kunne læse fra papirmaterialet.

I informationsalderen er der dog en omkostning ved lagring af data i skala - det indebærer omkostninger til at køre servere, betale for elektricitet og betale for folk, der administrerer disse servere, betale for opgraderinger, når teknologien skrider frem. Det koster også at hente det, brugerne skal have hardware og software, der kan forstå og gengive det format, filen blev skrevet i.

Formaterne ændres, engang på grund af tekniske grunde og andre gange på grund af rent politiske grunde. Hvis Microsoft Word beslutter at stoppe med at understøtte docs-formatet, eller hvis PDF-formatet ikke længere accepteres, efterhånden som bedre dem følger med og over tid tager hardware- og softwaredesign en anden retning .. i den fremtid er alle forskningsartikler, økonomiske rapporter, fødsel certifikater og dødsregistre, der er gemt i pdf, vil gå tabt for altid.

Efterhånden som vi skaber flere data, sletter vi også vores fortid ofte permanent. Hvis et forbrugerwebselskab bliver erhvervet eller likviderer, har det ikke noget incitament til at holde sine datacentre i gang, som hvad der skete, da hjemmeautomationsfirma Revolv blev erhvervet af Google Nest, og dens automatiseringsnav blev lukket, hvilket efterlod ejere af det smarte hjemmeprodukt følt sig ganske stumt om deres beslutning. Tilsvarende kan en bank eller en finansiel institution ikke have noget incitament til at føre transaktionsregistreringer ud over, hvad der kræves af forretnings- og myndighedskrav.
Overvej at næsten ingen af ​​de populære blogs eller sociale medieplatforme, som vi ser i dag, vil være omkring 50 år, det er svært at forestille sig, hvad der vil ske med alle de data, som disse virksomheder ville have samlet i årenes løb. De data, der ville have været kronikker i vores liv og tider.

Når enhver software, vi bruger, er en service, dikteres vores ejerskab af ting og kontrol over dem af tjenesteudbyderen. I en ironi, der kun passer til titlen, slettede Amazon i 2009 fjernt alle kopier af George Orwells 1984 fra Kindle-enheder efter en konflikt med udgiveren.

Spillerne føler dette ofte, når de håndterer, at deres software og hardware bliver uforenelige, og spil bliver ubrugelige, hvis Steam lukker det ned, er det servere, som millioner af spillere ikke har nogen rettigheder til at spille det spil, de har købt. Hvis League Of Legends-servere lukkes, kan spillerne måske aldrig kunne spille spillet igen, fordi de stærke ophavsret sikrer, at spilserverne ikke kan genskabes. Player's of Crysis og BattleField 1942 indså dette, da titlerne pludselig blev uafspilelige, da GameSpy lukkede det for sine servere. PS3-spil er ikke kompatible med PS2-konsoller, og som understøttelse af softwaren og hardwarevirkningen vil alle registreringer af timerne i dit liv, du har brugt på at spille spillet, forsvinde for evigt.

Et brev overlever muligvis skjult inde i et skab i hundrede år, men når tiden går og et filformat og al dets relaterede viden bliver forældet, kan ingen korrespondance eller tidsskrift skrevet i filformatet nogensinde hentes ..

En kort historie med datalagring

Den tidligste optagelse i tabletter har overlevet i tusinder af år. Kilde.

Vores tidligste forfædre tegnet deres tanker i malerier dybt inde i huler, der blev til tidløse arkiver med data, der førte menneskeheden frem. Da vi begyndte at skrive, plejede vi at skrive på ler-tavler, der overlevede i tusinder af år, og flere og flere af dem findes stadig i dag.

Derefter i 1440 e.Kr. kom Gutenburg Printing Press med og var et af de vigtigste øjeblikke i historien, der gjorde det muligt for folk at få adgang til viden, der var så længe forbeholdt eliten, og anspurgte til de videnskabelige revolutioner, der er kommet til at definere det moderne verden. Papirmediet havde dog en fejl, papir er et svagt materiale og forfalder let. Det er kun de mest velbevarede bøger, som vi finder, at er hundreder af år gamle.

Da vi gik videre til informationsalderen og overførte datalagring til en strøm af bits, der er gemt på servere, ansporet vi en anden revolution, internettet.
Vores resultater ligger i fremskridtene inden for informationsteori og maskinlæring. Vi registrerer vores liv på Twitter og Facebook og Instagram, som lagrer dets data i offentlige skyer eller datacentre, vi kroniserer vores arbejde på Github og gemmer dem på datacentre for disse SAAS-leverandører.

Hvordan mister vi vores data?

Før vi havde datacentre, havde vi biblioteker. Biblioteker fik til opgave at føre kataloger over bøger og tidsskrifter, der blev betragtet som vigtige set fra menneskehedens perspektiv fra nutiden og fortiden. Disse biblioteker kunne undertiden overleve gennem århundreder, men mange af dem blev ødelagt gennem årene gennem krige og naturkatastrofer.

Optegnelserne over bøger og tekster, vi har mistet gennem historien

Ændring af hardwarestandarder

I Moore's lov hedder det, at antallet af transistorer i et integreret kredsløb omtrent fordobles hvert andet år. Diskopbevaring og processoreffekt er i konstant udvikling og ikke altid på en bagudkompatibel måde. Ofte er det simpelt ikke muligt at opretholde bagudkompatibilitet, og andre gange opgives en sådan indsats på grund af faldende afkast over tid.

Vi mister allerede mange film og optagelser fra før VCR-æraen, fordi folk simpelthen glemte at overføre værkerne til nyere lagringsmedier, og de eksisterende værker blev tabt, eller formatet til at afspille dem understøttes ikke længere. For at se, hvordan disklagring har ændret sig gennem årene, kan du tjekke dette link.

Et snapshot af lagerhardware gennem tiden

Evolverende databas API'er og motorer

Et øjebliksbillede af database API-udvikling [kilde]

Databas API'er har udviklet sig med den skiftende karakter af data i de tidligste dage med beregning af relationelle databaser, hvor de er hierarkiske, indtil entitetsforholdsmodellen blev foreslået og resulterede i udviklingen af ​​det relationelle databasestyringssystem. NoSQL-systemer udviklede sig til at imødekomme databehovet i internet-æraen med ustrukturerede data.

Problemet er, at disse API'er ofte ikke er kompatible med hinanden. Selv varianter af SQL leveret af forskellige leverandører er ikke drop-in-erstatninger, der er forskellige varianter af API'er understøttet af forskellige leverandører og petabytes af data, der er gemt i et format, der ikke er kompatibelt med noget andet API. Så hvis virksomheden, der støtter API'en, går ud af drift, vil databasedrivere til populære programmeringssprog forsvinde, vil dataene, der er låst i API'en, gå tabt for evigt, selvom de ikke rent faktisk er blevet slettet fra hardwaren.

Hardwarefejl og menneskelige fejl

Forudsigelige årsager til datatab [Kilde]

Opbevaringshardware mislykkes ofte, undertiden på grund af virus- eller softwarekrasch, andre gange på grund af menneskelige fejl eller strømafbrydelser. Data går tabt, når din telefons harddisk stegt, nogle gange fordi de ikke kan gendannes andre gange, fordi det kan være dyrt at gøre det.

Den offentlige sky: En tidløs abstraktion af infrastrukturlaget (i det mindste i teorien)

Løftet om tidløs abstraktion over infrastrukturlag, der overskrider hardware- eller API-opgraderinger

Vi har tillid til, at skyudbyderen vil være tidløs og vil overgå markedskræfterne og skiftende teknologier, og at data, der er gemt i den offentlige sky, vil blive ætset for evigt. Vi tror, ​​at skyudbyderen internt migrerer dataene til nyere bokse, hvis de ældre bliver forældede. Cloududbyderen opretholder kopier og kopier mod dataforstyrrelser og håndterer softwaremigrering. Men måske er det simpelthen ikke sandt.

Vækstrate for offentlige skyudbydere i 2016 [kilde]

Ser vi på det globale IAAS-marked, ser vi mange navne og start-ups, der leverer “Infrastructure As A Service” -løsninger. I en vis forstand vil de vinde og miste markedsandele, og med tiden vil mange navne forsvinde, og nye vil komme til at indtage deres plads, og selvom vi må antage, at konsolidering vil ske, når giganter absorberer de mindre, ved vi ikke, hvad SLA'er vil være hædret i tiden med udviklende teknologier og markedskræfter.

Ideen bag YugaByte

En tidløs opbevaringsmotor, agnostiker af Infrastructure eller API.

Vi gav navnene til stjernerne og konstellationerne og gav dem op i generationer.

Yuga repræsenterer en æra på sanskrit. Visionen bag YugaByte er at opbygge et datalag, der på en eller anden måde er tidløst og uforgængeligt. Et par af grundlæggerne, der har bygget opbevarings- og beskedinfrastrukturen på Facebook og Oracle, kender entydigt nogle af de udfordringer, som morgendagens virksomheder vil stå overfor, når størrelsen på petabytes bliver almindelig. De missionskritiske data i dag vil blive af morgendagens lagerdata og arkiverede data om et par år. Vi ønsker, at data skal leve gennem ændrede API'er og hardwarespecs. Vi blev drevet af følgende vejledende principper-

Datalaget skal være API-agnostisk.

Et kig på databasesystemerne i de sidste 40 år viser et landskab spækket med API'er, hvoraf ingen er kompatible med hinanden. Vi forsøgte at opbygge en database, der er trådkompatibel med Redis, CQL og SQL API'er og er lige så performant i de fleste brugssager og mere performant i fokuserede brugssager end den originale lagermotor.

Datalaget skal være hardware-agnostisk.

Kan vi abstrahere infrastrukturlaget fuldstændigt, give den samme oplevelse hos AWS-, GCP- eller OnPrem-udbydere og eliminere cloud lock-in på datalaget. (Jeg tror, ​​børn i disse dage kalder det cloud-native)
Kan vi tilføje eller fjerne noder til dataklyngen på en hardware-agnostisk måde, kan vi bruge moderne devops-værktøj og containerisering til at opbygge en løsning, der fuldstændigt abstraherer infrastrukturen fra IAAS-udbyderen.

Datalaget skal være open source og kompatibelt med åbne standarder.

En open-source-kodebase og et blomstrende samfund af bidragydere betyder, at softwaren overgår de fleste markedskræfter og udvikler sig til at støtte brugssager, der passer bedre til den ukendte fremtid.

Datalaget skal være distribueret og fejlagtolerant.

Kan datalaget tåle fiaskoen i et vilkårligt antal knudepunkter, kan vi integrere alarmeringsmekanisme og målinger indfødt i motoren, så der ikke går tab af data på grund af, at noder er nede eller diske er fulde. Kan vi eliminere de fleste ops brugssager til knudepunktfejl i selve orkestreringslaget.

Datalaget skal naturligvis understøtte async-replikaer og snapshots.

Kan vi anvende principperne ovenfor ikke kun på den primære klynge, men også til at læse kopier, sikkerhedskopier og snapshots og gøre dem til hardware og API til agnostik også i en forstand, der giver perfekt mobilitet mellem forskellige infrastrukturudbydere.

For at besvare nogle af disse spørgsmål byggede vi YugaByte-projektet. Det er en konstant udviklende indsats for at opnå data, der i en vis forstand er permanente.

Hvis du kunne lide historien, er der 50 måder (klapper) til at vise din påskønnelse :)

Denne historie er offentliggjort i The Startup, Medium's største iværksætterpublikation efterfulgt af 293.189 personer.

Abonner for at modtage vores tophistorier her.