7 työkalua big datan kesyttämiseen Hadoopilla

Thaimaan kiintolevyteollisuutta tuhonneet tulvat ovat nyt puoli vuotta vanhoja, ja teratavun hinnat laskevat viimeinkin jälleen. Tämä tarkoittaa, että tietoja alkaa kasaantua ja ihmiset toimiston ympärillä ihmettelevät, mitä sillä voi tehdä. Ehkä noissa lokitiedostoissa on joitain oivalluksia? Ehkä vähän tilastollista analyysiä löytää kullan kimpaleita haudattuna kaikkeen tähän meluun? Ehkä löydämme tarpeeksi muutosta haudattuna näiden tiedostojen sohvatyynyihin antamaan meille kaikille korotuksen?

Alalla on nyt muotisana, "big data", kuinka aiomme tehdä jotain valtavan määrän informaation kasaessa. "Suuret tiedot" korvaa "liiketoimintatiedon", joka korvasi "raportoinnin", mikä antoi hienomman kiillon "laskentataulukoille", jotka voittivat vanhanaikaiset "tulosteet". Johtajat, jotka ovat jo kauan opiskelleet tulosteita, palkkaavat nyt matemaatikkoja, jotka väittävät olevansa big data -asiantuntijoita auttamaan heitä ratkaisemaan sama vanha ongelma: Mitä myydä ja miksi?

[Myös: Enterprise Hadoop: Suurten tietojen käsittely helpottui Tutustu BI: n nykyisiin trendeihin ja ratkaisuihin interaktiivisella Business Intelligence iGuide -palvelulla. | Löydä liiketoiminnan sovellusten uudet ominaisuudet Technology: Applications -uutiskirjeellä. ]

Ei ole oikeudenmukaista ehdottaa, että nämä sanat ovat yksinkertaisia korvikkeita toisilleen. Big data on monimutkaisempi maailma, koska mittakaava on paljon suurempi. Tiedot hajautetaan yleensä useille palvelimille, ja tietojen kokoamistyö on koordinoitava niiden kesken. Aikaisemmin työ siirrettiin suurelta osin tietokantaohjelmistolle, joka käytti sen maagista JOIN-mekanismia taulukoiden kokoamiseen ja sitten sarakkeiden yhteenlaskemisen ennen tietojen suorakulmion jakamista raportointiohjelmistolle, joka sivuttaisi sen. Tämä oli usein vaikeampi kuin miltä se kuulostaa. Tietokannan ohjelmoijat voivat kertoa sinulle tarinoita monimutkaisista JOIN-komennoista, jotka lukitsisivat heidän tietokantansa tuntikausiksi, kun se yritti tuottaa raportin pomolle, joka halusi hänen sarakkeensa juuri niin.

Peli on nyt paljon erilainen. Hadoop on suosittu työkalu palvelinten telineiden ja telineiden järjestämiseen, ja NoSQL-tietokannat ovat suosittuja työkaluja tietojen tallentamiseen näihin telineisiin. Nämä mekanismit voivat olla paljon tehokkaampia kuin vanha yksittäinen kone, mutta ne eivät ole kaukana hiotusta kuin vanhat tietokantapalvelimet. Vaikka SQL saattaa olla monimutkainen, JOIN-kyselyn kirjoittaminen SQL-tietokannoille oli usein paljon yksinkertaisempaa kuin tietojen kerääminen kymmenistä koneista ja koontaminen yhdeksi yhtenäiseksi vastaukseksi. Hadoop-työt kirjoitetaan Java-kielellä, ja se vaatii uutta hienostuneisuutta. Suurten tietojen käsittelyyn tarkoitetut työkalut ovat vasta alkaneet pakata tätä hajautettua laskentatehoa tavalla, joka on hieman helpompi käyttää.

Monet suurista datatyökaluista toimivat myös NoSQL-tietovarastojen kanssa. Nämä ovat joustavampia kuin perinteiset relaatiotietokannat, mutta joustavuus ei ole yhtä suuri poikkeama menneisyydestä kuin Hadoop. NoSQL-kyselyt voivat olla yksinkertaisempia, koska tietokannan suunnittelu estää monimutkaisen taulukkorakenteen, joka johtaa SQL: n kanssa työskentelyn monimutkaisuuteen. Suurin huolenaihe on, että ohjelmistojen on ennakoitava mahdollisuus, että kaikilla sarjoilla ei ole tietoja jokaisesta sarakkeesta.

Suurin haaste voi olla niiden odotusten käsittely, joita suuri elokuva "Rahapallo" on rakentanut. Kaikki pomot ovat nähneet sen ja imeneet viestin, että jotkut älykkäät tilastot voivat tehdä pienen budjetin joukkueesta World Series -voittajan. Ei ole väliä, että Oaklandin yleisurheilu ei koskaan voittanut MM-sarjoja "Moneyball" -kaudella. Se on Michael Lewisin proosan taika. Pomot ajattelevat: "Ehkä jos saan hyvät tilastot, Hollywood palkkaa Brad Pittin pelaamaan minua elokuvaversiossa."

Mikään tämän kokoelman ohjelmisto ei ole lähellä houkutella Brad Pittiä pyytämään agentiltaan kopiota käsikirjoituksesta Hadoop-työsi elokuvaversioon. Sen täytyy tulla sinusta tai muista projektissa työskentelevistä ihmisistä. Tietojen ymmärtäminen ja oikean kysymyksen löytäminen on usein paljon monimutkaisempaa kuin saada Hadoop-työsi suorittamaan nopeasti. Se todella sanoo jotain, koska nämä työkalut ovat vain puolet työstä.

Saadakseni käsityksen alan lupauksista, ladasin joitain big data -työkaluja, sekoitin dataan, ja sitten tuijotin Einstein-luokan oivalluksia. Tiedot tulivat lokitiedostoista verkkosivustolle, joka myy joitain kirjani (wayner.org), ja etsin jonkinlaista käsitystä siitä, mitä myytiin ja miksi. Joten puroin pakkauksen ja kysyin kysymyksiä.

Suuret tietotyökalut: Jaspersoft BI Suite

Jaspersoft-paketti on yksi avoimen lähdekoodin johtajista raporttien tuottamiseksi tietokannan sarakkeista. Ohjelmisto on hyvin hiottu ja jo asennettu moniin yrityksiin, mikä muuttaa SQL-taulukot PDF-tiedostoiksi, joita jokainen voi tutkia kokouksissa.

Yritys hyppää big data -junaan, mikä tarkoittaa ohjelmistokerroksen lisäämistä yhdistämään raporttia tuottava ohjelmisto paikkoihin, joihin isot tiedot tallennetaan. JasperReports Server tarjoaa nyt ohjelmiston imemään tietoja monilta tärkeimmiltä tallennusalustoilta, kuten MongoDB, Cassandra, Redis, Riak, CouchDB ja Neo4j. Hadoop on myös hyvin edustettuna, ja JasperReports tarjoaa Hive-liittimen päästäksesi HBaseen.

Vaikuttaa siltä, että se on vasta alkamassa - monet dokumentaatio-wikin sivut ovat tyhjiä eikä työkaluja ole täysin integroitu. Esimerkiksi visuaalinen kyselysuunnittelija ei vielä toimi Cassandran CQL: n kanssa. Voit kirjoittaa nämä kyselyt käsin.

Kun saat tiedot näistä lähteistä, Jaspersoftin palvelin yhdistää ne interaktiivisiksi taulukoiksi ja kaavioiksi. Raportit voivat olla varsin hienostuneita vuorovaikutteisia työkaluja, joiden avulla voit porautua eri kulmiin. Voit kysyä lisää ja lisätietoja, jos tarvitset niitä.

Tämä on ohjelmistomaailman hyvin kehittynyt kulma, ja Jaspersoft laajenee helpottamalla näiden kehittyneiden raporttien käyttöä uudempien tietolähteiden kanssa. Jaspersoft ei tarjoa erityisen uusia tapoja tarkastella tietoja, vaan vain kehittyneempiä tapoja käyttää uusiin sijainteihin tallennettuja tietoja. Minusta tämä oli yllättävän hyödyllistä. Tietojeni yhdistäminen oli riittävä ymmärtämään, kuka meni verkkosivustolle ja milloin he menivät sinne.

Big data -työkalut: Pentaho Business Analytics

Pentaho on toinen ohjelmistoalusta, joka alkoi raportteja tuottavana moottorina; se on, kuten JasperSoft, haarautuu isoihin tietoihin helpottamalla uusien lähteiden tietojen vastaanottamista. Voit liittää Pentahon työkalun moniin suosituimpiin NoSQL-tietokantoihin, kuten MongoDB ja Cassandra. Kun tietokannat on yhdistetty, voit vetää ja pudottaa sarakkeita näkymiin ja raporteihin ikään kuin tiedot tulisivat SQL-tietokannoista.

Minusta klassiset lajittelu- ja seulontataulukot ovat erittäin hyödyllisiä ymmärtämään, kuka vietti eniten aikaa verkkosivustollani. Yksinkertainen lajittelu lokitiedostoissa IP-osoitteen mukaan paljasti, mitä raskaat käyttäjät tekivät.

Pentaho tarjoaa myös ohjelmiston HDFS-tiedostojen ja HBase-tietojen piirtämiseen Hadoop-klustereista. Yksi kiehtovimmista työkaluista on graafinen ohjelmointirajapinta, joka tunnetaan joko nimellä Kettle tai Pentaho Data Integration. Siinä on joukko sisäänrakennettuja moduuleja, jotka voit vetää ja pudottaa kuvaan ja liittää ne sitten. Pentaho on integroinut Hadoopin ja muut lähteet perusteellisesti tähän, joten voit kirjoittaa koodisi ja lähettää sen suorittamaan klusteria.

Suuret datatyökalut: Karmasphere Studio ja analyytikko

Monet big data -työkaluista eivät alkaneet elämää raportointityökaluina. Esimerkiksi Karmasphere Studio on joukko laajennuksia, jotka on rakennettu Eclipsen päälle. Se on erikoistunut IDE, joka helpottaa Hadoop-työpaikkojen luomista ja suorittamista.

Minulla oli harvinainen ilon tunne, kun aloin määrittää Hadoop-työtä tällä kehittäjätyökalulla. Hadoop-työn elämässä on useita vaiheita, ja Karmasphere-työkalut opastavat sinut läpi jokaisen vaiheen ja näyttävät osittaiset tulokset matkan varrella. Luulen, että virheenkorjaajat ovat aina antaneet meille mahdollisuuden tutustua mekanismiin, kun se tekee työnsä, mutta Karmasphere Studio tekee jotain hieman parempaa: Kun määrität työnkulkua, työkalut näyttävät testitietojen tilan jokaisessa vaiheessa. Näet miltä väliaikaiset tiedot näyttävät, kun ne leikataan, analysoidaan ja vähennetään.

Karmasphere jakaa myös Karmasphere Analyst -työkalun, joka on suunniteltu yksinkertaistamaan kaikkien Hadoop-klusterin tietojen kyntöprosessia. Siinä on monia hyödyllisiä rakennuspalikoita hyvän Hadoop-työn ohjelmointiin, kuten aliohjelmat pakattujen lokitiedostojen pakkaamiseen. Sitten se merkitsee ne yhteen ja parametroi Hive-puhelut tuottaakseen taulukon lähtöä varten.

Suuret datatyökalut: Talend Open Studio

Talend tarjoaa myös Eclipse-pohjaisen IDE: n tietojenkäsittelytehtävien yhdistämiseen Hadoopin kanssa. Sen työkalut on suunniteltu auttamaan tietojen integroinnissa, tietojen laadussa ja tiedonhallinnassa, kaikki näiden tehtävien mukaisilla aliohjelmilla.

Talend Studion avulla voit rakentaa työpaikkoja vetämällä ja pudottamalla pieniä kuvakkeita kankaalle. Jos haluat saada RSS-syötteen, Talendin komponentti hakee RSS: n ja lisää välityspalvelimen tarvittaessa. Tietojen keräämisessä on kymmeniä komponentteja ja kymmeniä muita asioita kuten "sumea ottelu". Sitten voit tuottaa tulokset.

Lohkojen yhteen kirjoittaminen visuaalisesti voi olla yksinkertaista sen jälkeen, kun saat tuntuman siitä, mitä komponentit todella tekevät ja eivät. Tämän oli helpompi selvittää, kun aloin katsoa kankaan takana koottavaa lähdekoodia. Talend antaa sinun nähdä tämän, ja mielestäni se on ihanteellinen kompromissi. Visuaalinen ohjelmointi saattaa tuntua korkealta tavoitteelta, mutta olen huomannut, että kuvakkeet eivät koskaan voi edustaa mekanismeja riittävän yksityiskohtaisesti, jotta on mahdollista ymmärtää, mitä tapahtuu. Tarvitsen lähdekoodin.

Talend ylläpitää myös TalendForge-kokoelmaa, avoimen lähdekoodin laajennuksia, jotka helpottavat työskentelyä yrityksen tuotteiden kanssa. Suurin osa työkaluista näyttää olevan suodattimia tai kirjastoja, jotka linkittävät Talendin ohjelmiston muihin tärkeisiin tuotteisiin, kuten Salesforce.com ja SugarCRM. Voit imaista näiden järjestelmien tietoja omiin projekteihisi, mikä yksinkertaistaa integrointia.

Suuret datatyökalut: Skytree Server

Kaikkia työkaluja ei ole suunniteltu helpottamaan koodin yhdistämistä visuaalisilla mekanismeilla. Skytree tarjoaa nipun, joka suorittaa monia kehittyneemmistä koneoppimisalgoritmeista. Tarvitsee vain kirjoittaa oikea komento komentoriville.

Skytree on keskittynyt enemmän suolistoon kuin kiiltävä GUI. Skytree Server on optimoitu suorittamaan useita klassisia koneoppimisalgoritmeja tietojesi avulla yrityksen väittämällä tavalla, jonka mukaan yritys voi olla 10000 kertaa nopeampi kuin muut paketit. Se voi etsiä tietojasi etsimällä matemaattisesti samanlaisten kohteiden klustereita ja kääntää tämän sitten tunnistamaan poikkeamat, jotka voivat olla ongelmia, mahdollisuuksia tai molempia. Algoritmit voivat olla tarkempia kuin ihmiset, ja ne voivat etsiä valtavan määrän tietoja etsimällä merkintöjä, jotka ovat hieman epätavallisia. Tämä voi olla petos - tai erityisen hyvä asiakas, joka käyttää ja käyttää.

Ohjelmiston ilmainen versio tarjoaa samat algoritmit kuin oma versio, mutta se on rajoitettu 100 000 rivin tietojoukkoihin. Tämän pitäisi olla riittävä sen määrittämiseksi, onko ohjelmisto hyvä ottelu.

Suuret datatyökalut: pöytätietokone ja palvelin

Tableau Desktop on visualisointityökalu, jonka avulla on helppo tarkastella tietojasi uusilla tavoilla, sitten leikata ne ja tarkastella niitä toisella tavalla. Voit jopa sekoittaa tiedot muihin tietoihin ja tutkia niitä uudessa valossa. Työkalu on optimoitu antamaan sinulle kaikki sarakkeet tiedoille ja antamaan sinun sekoittaa ne ennen kuin täytät sen yhteen kymmenestä toimitetusta graafisesta mallista.

Tableau Software alkoi omaksua Hadoopin useita versioita sitten, ja nyt voit kohdella Hadoopia "samalla tavalla kuin mitä tahansa datayhteyttä". Tableau luottaa kyselyjen rakentamiseen Hiveen ja yrittää sitten parhaansa välimuistiin tallentaa muistiin niin paljon tietoa, että työkalu on vuorovaikutteinen. Vaikka monet muut raportointityökalut perustuvat perinteeseen luoda raportteja offline-tilassa, Tableau haluaa tarjota interaktiivisen mekanismin, jotta voit leikata ja pilkkoa tietojasi uudestaan ja uudestaan. Välimuisti auttaa käsittelemään joitain Hadoop-klusterin viiveitä.

Ohjelmisto on hyvin hiottu ja esteettisesti miellyttävä. Huomasin usein siirtävänsä tietoja uudelleen vain nähdäksesi ne uudessa kaaviossa, vaikka ei ollut paljon uutta opittavaa siirtymällä ympyräkaaviosta pylväskaavioon ja sen ulkopuolelle. Ohjelmistotiimiin kuuluu selvästi joukko taiteellisia lahjakkuuksia omaavia ihmisiä.

Suuret datatyökalut: Splunk

Splunk on vähän erilainen kuin muut vaihtoehdot. Se ei ole tarkalleen raportteja tuottava työkalu tai tekoälyn rutiinien kokoelma, vaikka se saavuttaa suuren osan siitä matkan varrella. Se luo hakemiston tiedoistasi ikään kuin tietosi olisivat kirja tai tekstilohko. Kyllä, tietokannat rakentavat myös indeksejä, mutta Splunkin lähestymistapa on paljon lähempänä tekstihakuprosessia.

Tämä indeksointi on yllättävän joustavaa. Splunk on jo viritetty tiettyyn sovellukseeni, logitiedostojen kanssa, ja se imi ne heti. Sitä myydään myös useina erilaisina ratkaisupaketteina, mukaan lukien yksi Microsoft Exchange -palvelimen seurantaan ja toinen verkkohyökkäysten havaitsemiseen. Hakemisto auttaa korreloimaan tietoja näissä ja useissa muissa yleisissä palvelinpuolen skenaarioissa.

saatat myös pitää