Ohjelmointi

Kymmenen huonointa big data -käytäntöä

Kyllä, voit hämärtää suuria tietoja. Voit kuitenkin sumuttaa sen oikealla tai väärällä tavalla. Tässä on 10 suosituinta vältettävää käytäntöä.

1. MongoDB: n valinta big data -alustallesi. Miksi valitsen MongoDB: tä? En ole, mutta jostain syystä, tällä hetkellä eniten väärinkäytetty NoSQL-tietokanta on MongoDB. Vaikka MongoDB: llä on yhdistelmäkehys, joka maistuu MapReducelta ja jopa (erittäin huonosti dokumentoidulta) Hadoop-liittimeltä, sen makea kohta on operatiivinen tietokanta, ei analyyttinen järjestelmä.

[Andrew C. Oliver vastaa kaikkien mielessä olevaan kysymykseen: Mitä kummajaista tietokantaa minun pitäisi käyttää? | Myös: NoSQL-standardien aika on nyt | Saat tiivistelmän tärkeimmistä tarinoista joka päivä Daily-uutiskirjeessä. ]

Kun lauseesi alkaa: "Käytämme Mongoa analysoimaan ...", pysähdy heti ja mieti mitä teet. Joskus tarkoitat todella "kerää myöhempää analyysiä varten", mikä voi olla OK, riippuen siitä, mitä olet tekemässä. Jos kuitenkin tarkoitat todella, että aiot käyttää MongoDB: tä jonkinlaisena sairaana tietovarastotekniikkana, projektisi saattaa olla tuomittu alussa.

2. RDBMS-skeeman käyttö tiedostoina. Joo, olet kaatanut jokaisen taulukon RDBMS: stä tiedostoon. Aiot tallentaa sen HDFS: ään. Aiot käyttää Hiveä siinä.

Ensinnäkin, tiedät, että Hive on normaalia tavallista hitaampi kuin RDBMS. Se tulee MapReduce jopa yksinkertainen valinta. Katso "optimoitu" reitti "taulukko" -liittymille. Seuraavaksi tarkastellaan rivikokoja - kun tiedät, sinulla on tasaisia ​​tiedostoja mitattuna yksinumeroisina kilotavuina. Hadoop pärjää parhaiten suurissa suhteellisen tasaisissa tiedoissa. Olen varma, että voit luoda otteen, joka on enemmän denormalisoitu.

3. Datalampien luominen. Matkalla luomaan datajärveä otit pois päältä toisen ylikulkusillan ja loit sarjan tietolampia. Conwayn laki on tullut jälleen voimaan, ja olet antanut jokaiselle liiketoimintaryhmälle paitsi luoda oman analyysin tiedoista, myös omien minivarastojensa. Se ei kuulosta aluksi huonolta, mutta erilaisilla otteilla ja tavoilla viipaloida ja pilkkoa tiedot saat päätökseen erilaisia ​​näkymiä tiedoista. En tarkoita tasainen kuutio - tarkoitan erilaisia ​​vastauksia joihinkin samoihin kysymyksiin. Luettu malli ei tarkoita "älä suunnittele lainkaan", mutta tarkoittaa "älä suunnittele kaikkia kysymyksiä, joita saatat kysyä".

Siitä huolimatta sinun tulisi suunnitella iso kuva. Jos myyt pienohjelmia, on hyvät mahdollisuudet, että joku haluaa nähdä, kuinka monta, kenelle ja kuinka usein olet myynyt widgetejä. Mene eteenpäin ja hanki se tavallisissa muodoissa ja tee pieni etukäteissuunnittelu varmistaaksesi, ettet päädy kunkin yksittäisen liiketoimintaryhmän omistamiin datalampiin ja lätäköihin.

4. Todennäköisten käyttötapausten kehittäminen epäonnistui. Myyjät myyvät datajärven ideaa korvaamaan todelliset käyttötapaukset. (Se on myös tapa välttää osastojen rahoituksen rajoitteet.) Data-Lake-lähestymistapa voi olla pätevä, mutta sinun tulisi pitää mielessä todelliset käyttötapaukset. Ei ole vaikeaa löytää niitä useimmissa keskisuurissa yrityksissä. Aloita tarkistamalla, milloin joku viimeksi sanoi: "Ei, emme voi, koska tietokanta ei pysty käsittelemään sitä." Siirry sitten kohtaan "duh". Esimerkiksi "liiketoiminnan kehittäminen" ei ole tarkoitus olla vain nimellinen ylennys ylimmälle myyjällesi; sen pitäisi tarkoittaa jotain.

Entä sanoa Mahoutin käyttäminen sellaisten asiakastilausten löytämiseen, jotka ovat yleisiä poikkeamia? Useimmissa yrityksissä suurin osa asiakastilauksista muistuttaa toisiaan. Entä tilaukset, jotka tapahtuvat riittävän usein, mutta eivät vastaa yleisiä tilauksia? Nämä voivat olla liian pieniä myyjien välitettäväksi, mutta ne voivat osoittaa yrityksesi tulevaa liiketoiminta-aluetta (eli todellista liiketoiminnan kehitystä). Jos et voi rumpua ainakin pari hyvää reaalimaailman käyttöä Hadoopille, et ehkä tarvitse sitä loppujen lopuksi.

5. Ajatteleva pesä on kaikki, loppu kaikki. Tunnet SQL: n. Pidät SQL: stä. Olet tehnyt SQL: ää. Saan sen, mies, mutta ehkä sinäkin voit kasvaa? Ehkä sinun pitäisi päästä syvälle vuosikymmeneen tai kolmeen ja muistaa nuori lapsi, joka oppi SQL: n ja näki maailmat, jotka se avasi hänelle. Kuvittele nyt, että hän oppii toisen asian samanaikaisesti.

$config[zx-auto] not found$config[zx-overlay] not found