Ohjelmointi

Lumihiutaleiden tarkistus: Tietovarasto on parantunut pilvessä

Tietovarastot, joita kutsutaan myös yritystietovarastoiksi (EDW), ovat erittäin rinnakkaisia ​​SQL- tai NoSQL-tietokantoja, jotka on suunniteltu analysointia varten. Niiden avulla voit tuoda tietoja useista lähteistä ja luoda monimutkaisia ​​raportteja nopeasti petatavuista tiedoista.

Ero tietovaraston ja datajoukon välillä on se, että tyypillisesti datajoukko on rajoitettu yhteen aiheeseen ja yhteen osastoon. Ero tietovaraston ja datajärven välillä on se, että datajärvi tallentaa tietoja luonnollisessa muodossaan, usein läiskinä tai tiedostoina, kun taas tietovarasto tallentaa tietoja tietokantana.

Lumihiutale lyhyesti

Lumihiutale on täysin relaatioon perustuva ANSI SQL -tietovarasto, joka rakennettiin alusta alkaen pilvelle. Sen arkkitehtuuri erottaa laskennan tallennustilasta, jotta voit skaalata ylös ja alas lennossa ilman viivytyksiä tai häiriöitä, vaikka kyselyt ovat käynnissä. Saat tarvitsemasi suorituskyvyn juuri silloin, kun tarvitset sitä, ja maksat vain käyttämästäsi laskelmasta. Lumihiutale toimii tällä hetkellä Amazon Web Services -palvelussa ja Microsoft Azuressa.

Lumihiutale on täysin pylvään muotoinen tietokanta, jossa on vektoroitu toteutus, joten se pystyy vastaamaan vaativimpiinkin analyyttisiin työmääriin. Lumihiutaleen mukautuva optimointi varmistaa, että kyselyt saavat automaattisesti parhaan mahdollisen suorituskyvyn ilman hallittavia hakemistoja, jakeluavaimia tai viritysparametreja.

Lumihiutale tukee rajoittamatonta samanaikaisuutta ainutlaatuisella moniklusterisella jaetulla dataarkkitehtuurillaan. Tämä antaa useille laskentaryhmille mahdollisuuden toimia samanaikaisesti samoilla tiedoilla heikentämättä suorituskykyä. Lumihiutale voi jopa skaalata automaattisesti käsittelemään vaihtelevia samanaikaisuusvaatimuksia moniklusterisen virtuaalivarasto-ominaisuutensa avulla, lisäämällä läpinäkyvästi laskentaresursseja huippukuormitusjaksojen aikana ja pienentämällä kuormien vähentyessä.

Lumihiutale kilpailijat

Kilpailijoita lumihiutaleelle pilvessä ovat Amazon Redshift, Google BigQuery ja Microsoft Azure SQL Data Warehouse. Muut suuret kilpailijat, kuten Teradata, Oracle Exadata, MarkLogic ja SAP BW / 4HANA, voidaan asentaa pilveen, tiloihin ja laitteisiin.

Amazon Redshift

Amazon Redshift on nopea, skaalautuva tietovarasto, jonka avulla voit analysoida kaikki tietosi varastoosi ja Amazon S3 -tietojärviisi. Kysyt Redshiftia SQL: n avulla. Redshift-tietovarasto on klusteri, joka voi ottaa käyttöön ja poistaa kapasiteetin automaattisesti samanaikaisen kyselykuormituksen avulla. Kaikki klusterisolmut on kuitenkin järjestetty samaan käytettävyysvyöhykkeeseen.

Microsoft Azure SQL -tietovarasto

Microsoft Azure SQL Data Warehouse on pilvipohjainen tietovarasto, joka käyttää Microsoft SQL -moottoria ja MPP: tä (massiivisesti rinnakkaiskäsittely) monimutkaisten kyselyjen suorittamiseksi nopeasti petatavuissa dataa. Voit käyttää Azure SQL Data Warehousea big data -ratkaisun avainkomponenttina tuomalla isoja tietoja SQL Data Warehouseen yksinkertaisilla PolyBase T-SQL-kyselyillä ja suorittamalla sitten MPP: n voiman korkean suorituskyvyn analytiikan suorittamiseksi.

Azure SQL Data Warehouse on saatavana 40 Azure-alueella ympäri maailmaa, mutta tietty varastopalvelin on olemassa vain yhdellä alueella. Voit skaalata tietovaraston suorituskykyä tarpeen mukaan, mutta käynnissä olevat kyselyt peruutetaan ja palautetaan.

Google BigQuery

Google BigQuery on palvelimeton, erittäin skaalautuva ja kustannustehokas pilvipalveluvarasto, jossa on GIS-kyselyjä, sisäänrakennettu muistin BI-moottori ja koneoppiminen. BigQuery suorittaa nopeita SQL-kyselyjä gigatavuista petatavuihin dataa ja tekee julkiseen liittymisestä helppoa. tai kaupalliset tietojoukot tietojesi kanssa.

Voit asettaa BigQuery-tietojoukon maantieteellisen sijainnin vain luomisajankohtana. Kaikki kyselyssä viitatut taulukot on tallennettava tietojoukoihin samaan sijaintiin. Tämä koskee myös ulkoisia tietojoukkoja ja tallennustilaa. Ulkoisten Google Cloud Bigtable -tietojen sijainnille on lisärajoituksia. Oletusarvoisesti kyselyt suoritetaan samalla alueella kuin tiedot.

Sijainnit voivat olla tiettyjä paikkoja, kuten Pohjois-Virginia, tai suuria maantieteellisiä alueita, kuten EU tai Yhdysvallat. Jos haluat siirtää BigQuery-tietojoukon alueelta toiselle, sinun on vietävä se Google Cloud Storage -säilöön samassa paikassa kuin tietojoukko, kopioitava ämpäri uuteen sijaintiin ja ladattava se BigQueryyn uudessa paikassa.

Lumihiutalearkkitehtuuri

Lumihiutale käyttää virtuaalisia laskentatapauksia laskentatarpeisiinsa ja tallennuspalvelua tietojen jatkuvaan tallentamiseen. Lumihiutaletta ei voida käyttää yksityisissä pilvi-infrastruktuureissa (paikan päällä tai isännöimä).

Suoritettavaa asennusta ei ole, eikä konfigurointia. Lumihiutale hoitaa kaiken huollon ja virityksen.

Lumihiutale käyttää pysyvää dataa varten keskitettyä tietovarastoa, johon pääsee käsiksi kaikista tietovaraston laskennan solmuista. Samaan aikaan Snowflake käsittelee kyselyt käyttämällä MPP (massively parallel processing) -laskeklustereita, joissa kukin klusterin solmu tallentaa osan koko tietojoukosta paikallisesti.

Kun tiedot ladataan lumihiutaleeseen, lumihiutale järjestää nämä tiedot sisäiseksi pakatuksi sarakemuodoksi. Sisäisiin dataobjekteihin pääsee vain SQL-kyselyiden kautta. Voit muodostaa yhteyden lumihiutaleeseen sen web-käyttöliittymän kautta, CLI: n (SnowSQL) kautta, ODBC- ja JDBC-ohjainten kautta sovelluksista, kuten Tableau, alkuperäisten liittimien kautta ohjelmointikielille ja kolmansien osapuolten liitinten kautta BI- ja ETL-työkaluille.

Lumihiutale

Lumihiutaleiden ominaisuudet

Turvallisuus ja tietosuoja. Lumihiutaleessa tarjotut turvaominaisuudet vaihtelevat versioittain. Jopa vakioversio tarjoaa kaiken datan automaattisen salauksen ja tukee monivaiheista todennusta ja kertakirjautumista. Enterprise-lisäys lisää salattujen tietojen säännöllisen uudelleenavauksen ja Enterprise for Sensitive Data -versio tukee HIPAA- ja PCI DSS -tuotteita. Voit valita, mihin tietosi tallennetaan, mikä auttaa noudattamaan EU: n GDPR-määräyksiä.

Vakio- ja laajennettu SQL-tuki. Lumihiutale tukee useimpia SQL: 1999: ssä määriteltyjä DDL- ja DML-tiedostoja sekä transaktioita, joitain edistyneitä SQL-ominaisuuksia ja osia SQL: 2003-analyyttisistä laajennuksista (ikkunointitoiminnot ja ryhmittelyjoukot). Se tukee myös sivuttaisia ​​ja toteutuneita näkymiä, yhdistettyjä toimintoja, tallennettuja menettelyjä ja käyttäjän määrittelemiä toimintoja.

Työkalut ja rajapinnat. Lumihiutale antaa sinun hallita virtuaalivarastojasi käyttöliittymästä tai komentoriviltä. Tähän sisältyy varastojen luominen, koon muuttaminen (ilman seisokkeja), keskeyttäminen ja pudottaminen. Varaston koon muuttaminen kyselyn ollessa käynnissä on erittäin kätevää, varsinkin kun joudut nopeuttamaan liikaa aikaa vievää kyselyä. Parhaan tietoni mukaan, jota ei ole otettu käyttöön missään muussa EDW-ohjelmistossa.

Yhteydet Lumihiutaleella on liittimet ja / tai ohjaimet Pythonille, Sparkille, Node.js, Go, .Net, JDBC, ODBC ja dplyr-snowflakedb, avoimen lähdekoodin dplyr-pakettilaajennukselle, jota ylläpidetään GitHubissa.

Tietojen tuonti ja vienti. Lumihiutale voi ladata monenlaisia ​​tietoja ja tiedostomuotoja. Tämä sisältää pakatut tiedostot; erotetut datatiedostot; JSON-, Avro-, ORC-, parketti- ja XML-muodot; Amazon S3 -tietolähteet; ja paikalliset tiedostot. Se voi tehdä joukkolatausta ja purkamista taulukoihin ja taulukoihin sekä jatkuvaa joukkolatausta tiedostoista.

Tietojen jakaminen. Lumihiutaleella on tuki tietojen turvalliselle jakamiselle muiden lumihiutaleiden tilien kanssa. Tätä virtaviivaistaa nollakopioitujen taulukon kloonien käyttö.

Lumihiutale

Lumihiutale-oppaat

Lumihiutale tarjoaa melko paljon opetusohjelmia ja videoita. Jotkut auttavat sinua pääsemään alkuun, toiset tutkivat tiettyjä aiheita ja toiset esittelevät ominaisuuksia.

Suosittelen tutustumaan käytännön yleiskatsaukseen, joka on kuvattu lumihiutaleiden kokeilun käytännön laboratorio-oppaassa.) Se kesti alle tunnin ja maksoi alle viisi opintopistettä. Se antoi vielä 195 opintopistettä ilmaisessa kokeilussa, jonka pitäisi riittää tuoda todellisia tietoja ja testata joitain kyselyjä.

Opetusohjelmassa käytetään paljon lumihiutaleiden laskentataulukoita, kätevää tapaa komentojen ja SQL: n suorittamiseen web-käyttöliittymässä. Se kattaa muun muassa tietojen lataamisen; kysely, tulosten välimuisti ja kloonaus; osittain jäsennelty data; ja aikamatka tietokantaobjektien palauttamiseksi.

Lumihiutale on mielestäni melko vaikuttava. Odotin sen olevan kömpelö, mutta näin ei ole lainkaan. Itse asiassa monet sen tietovarastooperaatiot menevät paljon nopeammin kuin odotin, ja kun on sellainen, joka näyttää indeksoivan, voin puuttua asiaan ja laajentaa tietovarastoa keskeyttämättä mitä tapahtuu.

Suuri osa skaalauksesta voidaan automatisoida. Kun luot tietovarastoa (katso yllä olevaa kuvakaappausta), on mahdollista sallia useita klustereita, mahdollisuus asettaa skaalauskäytäntö, mahdollisuus keskeyttää automaattisesti ja mahdollisuus jatkaa automaattisesti. Automaattisen keskeytyksen oletusaika on 10 minuuttia, mikä estää varastoa kuluttamasta resursseja, kun se on käyttämättömänä pidempään. Automaattinen jatkaminen on melkein välitöntä ja tapahtuu aina, kun varastoa vastaan ​​kysytään.

Ottaen huomioon, että Snowflake tarjoaa 30 päivän ilmaisen kokeiluversion 400 dollarin hyvityksellä eikä sinun tarvitse asentaa mitään, sinun pitäisi pystyä selvittämään, sopiiko lumihiutale tarpeisiisi ilman käteisvaroja. Suosittelen, että annat sille pyöräytyksen.

Kustannus: 2 dollaria / luotto plus 23 dollaria / TB / kuukausi, vakiopaketti, ennakkoon maksettu tallennustila. Yksi luotto on yksi solmu * tunti, jonka toinen laskuttaa. Korkeamman tason suunnitelmat ovat kalliimpia.

Alustat: Amazon Web Services, Microsoft Azure

$config[zx-auto] not found$config[zx-overlay] not found