Mikä on big data -analytiikka? Nopeat vastaukset erilaisista tietojoukoista

Siellä on tietoja ja sitten suuria tietoja. Joten, mikä on ero?

Suuret tiedot määritelty

Selkeä big data -määrittelyä voi olla vaikea selvittää, koska big data voi kattaa useita käyttötapauksia. Mutta yleensä termi viittaa tietojoukoihin, jotka ovat niin suuria ja niin monimutkaisia, että perinteiset tietojenkäsittelyohjelmistotuotteet eivät kykene sieppaamaan, hallitsemaan ja käsittelemään tietoja kohtuullisen ajan kuluessa.

Nämä suuret tietojoukot voivat sisältää strukturoitua, jäsentelemätöntä ja puolistrukturoitua dataa, joista kukin voidaan kaivaa oivalluksia varten.

Se, kuinka paljon dataa todellisuudessa on ”suurta”, on avoin keskustelulle, mutta se voi tyypillisesti olla petatavujen kerrannaisina - ja suurimpien projektien kohdalla.

Usein suurille tiedoille on tunnusomaista kolme V: tä:

äärimmäinen äänenvoimakkuus tietoja
laaja lajike tietotyypeistä
nopeus jossa tiedot on käsiteltävä ja analysoitava

Tiedot, jotka muodostavat suuria tietovarastoja, voivat olla peräisin lähteistä, jotka sisältävät verkkosivustoja, sosiaalista mediaa, työpöytä- ja mobiilisovelluksia, tieteellisiä kokeita ja - yhä enemmän - antureita ja muita laitteita esineiden internetissä (IoT).

Big data -konseptin mukana tulee joukko toisiinsa liittyviä komponentteja, joiden avulla organisaatiot voivat hyödyntää dataa käytännössä ja ratkaista useita liiketoimintaongelmia. Näitä ovat isojen tietotekniikoiden tukemiseen tarvittava IT-infrastruktuuri, dataan sovellettu analytiikka; hankkeisiin tarvittavat suuret data-alustat, niihin liittyvät taitojoukot ja tosiasialliset käyttötapaukset, jotka ovat järkeviä isoille tiedoille.

Mikä on data-analytiikka?

Mikä todella tuottaa arvoa kaikilta suurdatayrityksiltä, joita keräämme, on dataan sovellettu analytiikka. Ilman analytiikkaa, johon sisältyy tietojen tutkiminen mallien, korrelaatioiden, oivallusten ja trendien löytämiseksi, data on vain joukko nollia ja rajoitettua liiketoimintaa.

Soveltamalla analytiikkaa suuriin tietoihin yritykset voivat nähdä etuja, kuten myynnin kasvu, parempi asiakaspalvelu, parempi tehokkuus ja yleinen kilpailukyvyn parantaminen.

Dataanalytiikkaan kuuluu aineistojen tutkiminen saadaksesi oivalluksia tai tekemään johtopäätöksiä niiden sisältämistä asioista, kuten tulevan toiminnan suuntauksista ja ennusteista.

Analysoimalla tietoja isojen tietojen analysointityökalujen avulla organisaatiot voivat tehdä tietoon perustuvia liiketoimintapäätöksiä, kuten milloin ja missä pitää markkinointikampanja tai ottaa käyttöön uusi tuote tai palvelu.

Analytics voi viitata yritystiedon perussovelluksiin tai edistyneempään, ennakoivaan analytiikkaan, kuten tieteelliset organisaatiot käyttävät. Yksi edistyneimmistä data-analyysityypeistä on tiedonlouhinta, jossa analyytikot arvioivat suuria tietojoukkoja suhteiden, mallien ja suuntausten tunnistamiseksi.

Data-analytiikka voi sisältää tutkivan data-analyysin (tietojen mallien ja suhteiden tunnistamiseksi) ja vahvistavan data-analyysin (käyttämällä tilastollisia tekniikoita selvittääkseen, onko tiettyä tietojoukkoa koskeva oletus totta.

Toinen ero on kvantitatiivinen data-analyysi (tai numeerisen datan analyysi, jossa on kvantifioitavia muuttujia, joita voidaan verrata tilastollisesti) vs. kvalitatiivinen data-analyysi (joka keskittyy ei-numeerisiin tietoihin, kuten video, kuvat ja teksti).

IT-infrastruktuuri big datan tukemiseen

Jotta isojen tietojen käsite toimisi, organisaatioilla on oltava infrastruktuuri, jotta tiedot voidaan kerätä ja säilyttää, tarjota pääsy niihin ja suojata tiedot, kun ne ovat varastossa ja kuljetuksessa. Tämä edellyttää big data -analyysityökalujen käyttöönottoa.

Korkealla tasolla ovat tallennusjärjestelmät ja palvelimet, jotka on suunniteltu suurille tiedoille, tiedonhallinta- ja integraatio-ohjelmistot, liiketoimintatiedon ja data-analytiikan ohjelmistot sekä big data -sovellukset.

Suuri osa tästä infrastruktuurista on todennäköisesti paikalla, koska yritykset haluavat edelleen hyödyntää datakeskuksen investointejaan. Mutta yhä useammat organisaatiot luottavat pilvipalveluihin hoitamaan suuren osan big data -vaatimuksistaan.

Tiedonkeruu edellyttää lähteiden keräämistä tietojen keräämiseksi. Monet näistä - kuten verkkosovellukset, sosiaalisen median kanavat, mobiilisovellukset ja sähköpostiarkistot - ovat jo paikallaan. Mutta kun IoT vakiintuu, yritysten on ehkä asennettava antureita kaikenlaisiin laitteisiin, ajoneuvoihin ja tuotteisiin tietojen keräämiseksi sekä uusia sovellustietoja, jotka tuottavat käyttäjätietoja. (IoT-suuntautuneella big data-analytiikalla on omat erikoistuneet tekniikkansa ja työkalut.)

Organisaatioilla on oltava riittävä tallennustila kaiken saapuvan datan tallentamiseksi. Tallennusvaihtoehtojen joukossa ovat perinteiset tietovarastot, tietojärvet ja pilvipohjainen tallennus.

Turvallisuusinfrastruktuurin työkalut voivat sisältää tietojen salauksen, käyttäjien todennuksen ja muut pääsynhallinnan, valvontajärjestelmät, palomuurit, yrityksen liikkuvuuden hallinnan ja muut tuotteet järjestelmien ja tietojen suojaamiseksi,

Suuret tietotekniikat

Edellä mainitun yleisesti dataan käytetyn IT-infrastruktuurin lisäksi. Siellä on useita big data -tekniikoita, joita IT-infrastruktuurisi pitäisi tukea.

Hadoop-ekosysteemi

Hadoop on yksi suurtietoon läheisimmin liittyvistä tekniikoista. Apache Hadoop -projekti kehittää avoimen lähdekoodin ohjelmistoja skaalattavalle, hajautetulle tietojenkäsittelylle.

Hadoop-ohjelmistokirjasto on kehys, joka mahdollistaa suurten tietojoukkojen hajautetun käsittelyn tietokoneiden klustereissa yksinkertaisten ohjelmointimallien avulla. Se on suunniteltu skaalautumaan yhdestä palvelimesta tuhansiin, joista kukin tarjoaa paikallisen laskennan ja tallennustilan.

Projekti sisältää useita moduuleja:

Hadoop Common, yleiset apuohjelmat, jotka tukevat muita Hadoop-moduuleja
Hadoop Distributed File System, joka tarjoaa suuritehoisen pääsyn sovellustietoihin
Hadoop YARN, kehys työn aikatauluttamiseen ja klusteriresurssien hallintaan
Hadoop MapReduce, YARN-pohjainen järjestelmä suurten tietojoukkojen rinnakkaiskäsittelyyn.

Apache Spark

Hache-ekosysteemiin kuuluva Apache Spark on avoimen lähdekoodin klusterilaskentakehys, joka toimii moottorina isojen tietojen käsittelyyn Hadoopissa. Sparkista on tullut yksi keskeisistä hajautetun datan käsittelykehyksistä, ja se voidaan ottaa käyttöön monin eri tavoin. Se tarjoaa natiivisitomiset Java-, Scala-, Python- (erityisesti Anaconda Python -droottori) ja R-ohjelmointikielille (R soveltuu erityisen hyvin isoille tiedoille), ja se tukee SQL: ää, suoratoistodataa, koneoppimista ja kuvaajien käsittelyä.

Datajärvet

Datajärvet ovat varastotallennustiloja, joihin mahtuu erittäin suuri määrä raakatietoja alkuperäisessä muodossaan, kunnes tietoja tarvitaan yrityskäyttäjille. Digitaalisen muutoksen aloitteet ja IoT: n kasvu auttavat edistämään tietojärvien kasvua. Datajärvet on suunniteltu helpottamaan käyttäjien pääsyä valtaviin tietomääriin tarpeen mukaan.

NoSQL-tietokannat

Tavanomaiset SQL-tietokannat on suunniteltu luotettavia tapahtumia ja tapauskohtaisia kyselyjä varten, mutta niihin liittyy rajoituksia, kuten jäykkä skeema, joka tekee niistä vähemmän sopivia tietyntyyppisiin sovelluksiin. NoSQL-tietokannat vastaavat näihin rajoituksiin ja tallentavat ja hallitsevat tietoja tavoilla, jotka mahdollistavat suuren toimintanopeuden ja suuren joustavuuden. Monia kehitti yritykset, jotka etsivät parempia tapoja tallentaa tai käsitellä tietoja massiivisille verkkosivustoille. Toisin kuin SQL-tietokannoissa, monet NoSQL-tietokannat voidaan skaalata vaakasuunnassa satojen tai tuhansien palvelimien kesken.

Muistin sisäiset tietokannat

Sisäinen muistitietokanta (IMDB) on tietokannan hallintajärjestelmä, joka perustuu ensisijaisesti päämuistiin levyn sijaan tietojen tallentamiseen. Muistin sisäiset tietokannat ovat nopeammin kuin levylle optimoidut tietokannat, mikä on tärkeä näkökohta big data -analytiikan käytölle sekä tietovarastojen ja -marttien luomiselle.

Suuret tietotaidot

Big data- ja big data -analyysityöt edellyttävät erityisiä taitoja riippumatta siitä, tulevatko ne organisaation sisäpuolelta vai ulkopuolisten asiantuntijoiden kautta.

Monet näistä taidoista liittyvät tärkeimpiin isotietotekniikan komponentteihin, kuten Hadoop, Spark, NoSQL-tietokannat, muistin sisäiset tietokannat ja analytiikkaohjelmistot.

Muut ovat erityisiä tieteenaloille, kuten datatiede, tiedonlouhinta, tilastollinen ja kvantitatiivinen analyysi, tietojen visualisointi, yleiskäyttöinen ohjelmointi sekä tietorakenne ja algoritmit. Tarvitaan myös ihmisiä, joilla on yleisiä johtamistaitoja, näkemään big data -projektit loppuun asti.

Kun otetaan huomioon, kuinka yleisiä big data -analyysiprojekteja on tullut, ja tämän tyyppisten taitojen omaavien ihmisten pula, kokeneiden ammattilaisten löytäminen voi olla yksi organisaatioiden suurimmista haasteista.

Big data -analytiikan käyttötapaukset

Suuria tietoja ja analytiikkaa voidaan soveltaa moniin liiketoimintaongelmiin ja käyttötapauksiin. Tässä on muutama esimerkki:

Asiakasanalytiikka. Yritykset voivat tutkia asiakastietoja asiakaskokemuksen parantamiseksi, muuntokurssien parantamiseksi ja säilyttämisen lisäämiseksi.
Operatiivinen analytiikka. Operatiivisen suorituskyvyn parantaminen ja yritysten omaisuuden parempi hyödyntäminen ovat monien yritysten tavoitteita. Big data -analyysityökalut voivat auttaa yrityksiä löytämään tapoja toimia tehokkaammin ja parantaa suorituskykyä.
Petosten torjunta. Suuret tietotyökalut ja analyysit voivat auttaa organisaatioita tunnistamaan epäilyttävät toimet ja mallit, jotka saattavat viitata petolliseen käyttäytymiseen ja auttaa vähentämään riskejä.
Hintojen optimointi. Yritykset voivat käyttää big data -analytiikkaa optimoidakseen tuotteista ja palveluista perimät hinnat, mikä auttaa lisäämään tuloja.