Ohjelmointi

Nopea data: Seuraava vaihe isojen tietojen jälkeen

Tapa, jolla iso data kasvaa suureksi, tapahtuu jatkuvan saapuvan tiedon virran kautta. Suurissa määrin ympäristöissä tiedot saapuvat uskomattomilla nopeuksilla, mutta ne on silti analysoitava ja tallennettava.

VoltDB: n ohjelmistoarkkitehti John Hugg ehdottaa, että sen sijaan, että yksinkertaisesti tallennettaisiin analysoitavat tiedot myöhemmin, ehkä olemme päässeet pisteeseen, jossa ne voidaan analysoida nieltynä samalla, kun Apache Kafkan kaltaisilla työkaluilla pidetään silti erittäin korkeita saantiarvoja.

- Paul Venezia

Alle kymmenkunta vuotta sitten oli melkein mahdotonta kuvitella petatavujen historiallisen tiedon analysointia hyödykelaitteistolla. Nykyään tuhansista solmuista rakennetut Hadoop-klusterit ovat melkein yleisiä. Hadoopin kaltaiset avoimen lähdekoodin tekniikat kuvittelivat, kuinka petatavuja käsitellään tehokkaasti petatavuilla dataa hyödyke- ja virtualisoidun laitteiston avulla, jolloin kehittäjät saavat tämän ominaisuuden halvalla kaikkialla. Tuloksena syntyi big datan kenttä.

Samanlainen vallankumous tapahtuu niin kutsutun nopean datan kanssa. Ensinnäkin määritellään nopea data. Suuria tietoja luodaan usein uskomattomilla nopeuksilla tuotetulla datalla, kuten napsautusvirran tiedot, taloudelliset tiedot, lokien yhdistäminen tai anturitiedot. Usein näitä tapahtumia esiintyy tuhansia - kymmeniä tuhansia kertoja sekunnissa. Ei ihme, että tämän tyyppisiä tietoja kutsutaan yleisesti "paloletkuksi".

Kun puhumme paloletkuista suurissa tiedoissa, emme mittaa tilavuutta tietovarastoille tutuissa tyypillisissä gigatavuissa, teratavuissa ja petatavuissa. Mittaamme äänenvoimakkuutta ajan mukaan: megatavujen määrä sekunnissa, gigatavuja tunnissa tai teratavuja päivässä. Puhumme nopeudesta ja volyymista, joka on isojen tietojen ja tietovaraston välisen eron ydin. Suuret tiedot eivät ole vain suuria; se on myös nopea.

Suurten tietojen hyödyt menetetään, jos paloletkusta tuodaan nopeasti nopeasti liikkuvia tietoja HDFS: ään, analyyttiseen RDBMS: ään tai jopa tasaisiin tiedostoihin, koska kyky toimia tai hälyttää juuri nyt, kun asioita tapahtuu, on kadonnut. Paloletku edustaa aktiivista dataa, välitöntä tilaa tai jatkuvaa tarkoitusta koskevia tietoja. Tietovarasto on sitä vastoin tapa tarkastella historiallista tietoa menneisyyden ymmärtämiseksi ja tulevaisuuden ennustamiseksi.

Toimimisen datan kanssa sen saapuessa on pidetty kalliina ja epäkäytännöllisenä, ellei mahdotonta, varsinkin hyödykelaitteistoissa. Aivan kuten suurdatan arvo, myös nopean datan arvo vapautetaan uudelleenkäsitellyllä viestijonoilla ja suoratoistojärjestelmillä, kuten avoimen lähdekoodin Kafka ja Storm, ja uudella tietokantojen toteuttamisella avoimen lähdekoodin NoSQL- ja NewSQL-tarjousten käyttöönotolla. .

Kerää arvoa nopeassa datassa

Kymmenien tuhansien ja miljoonien tapahtumien sekunnissa saapuvien tietojen käsittelyyn tarvitaan kaksi tekniikkaa: Ensinnäkin suoratoistojärjestelmä, joka pystyy toimittamaan tapahtumia niin nopeasti kuin ne tulevat; ja toiseksi tietovarasto, joka pystyy käsittelemään jokaisen kohteen yhtä nopeasti kuin se saapuu.

Nopean tiedon toimittaminen

Kafka on suunniteltu viestijonoksi ja ratkaisemaan nykyisten tekniikoiden havaitut ongelmat. Se on eräänlainen über-jono, jolla on rajoittamaton skaalautuvuus, hajautetut käyttöönotot, monivärisyys ja vahva pysyvyys. Organisaatio voisi ottaa käyttöön yhden Kafka-klusterin tyydyttääkseen kaikki viestijonotarpeet. Silti ytimessä Kafka toimittaa viestejä. Se ei tue minkäänlaista käsittelyä tai kyselyä.

Copyright fi.verticalshadows.com 2024

$config[zx-auto] not found$config[zx-overlay] not found