Ohjelmointi

Qubole-arvostelu: Itsepalvelun big data -analytiikka

Qubole, joka laskutetaan pilvipohjaisena data-alustana analytiikkaa, tekoälyä ja koneoppimista varten, tarjoaa ratkaisuja asiakkaiden sitouttamiseen, digitaaliseen muutokseen, dataohjattuihin tuotteisiin, digitaaliseen markkinointiin, nykyaikaistamiseen ja tietoturvatietoihin. Se vaatii nopeaa arvoa, multi-cloud-tukea, 10x järjestelmänvalvojan tuottavuutta, 1: 200 operaattori-käyttäjä-suhdetta ja pienempiä pilvikustannuksia.

Qubole tekee lyhyen kokemuksensa perusteella alustasta integroimalla useita avoimen lähdekoodin työkaluja ja muutamia omistettuja työkaluja pilvipohjaisen itsepalvelukokemuksen luomiseen data-analyytikoille, tietotekniikan insinööreille. ja datatieteilijät.

Qubole vie sinut ETL: stä etsivien tietojen analysointiin ja mallien rakentamiseen mallien käyttöönottoon tuotantomittakaavassa. Matkan varrella se automatisoi useita pilvioperaatioita, kuten resurssien valmistelu ja skaalaus, jotka voivat muuten vaatia huomattavan määrän järjestelmänvalvojan aikaa. Salliinko automaatio tosiasiallisesti 10x lisätä järjestelmänvalvojan tuottavuutta vai 1: 200 operaattori-käyttäjä-suhdetta tietylle yritykselle tai käyttötapaukselle, ei ole selvää.

Qubole pyrkii painostamaan "aktiivisen datan" käsitettä. Pohjimmiltaan useimmilla tietojärvillä - jotka ovat lähinnä tiedostoja, jotka ovat täynnä tietoja monista lähteistä, kaikki yhdessä paikassa, mutta eivät yhdessä tietokannassa - on pieni prosenttiosuus tiedoista, joita käytetään aktiivisesti analyyseihin. Qubole arvioi, että useimmat datajärvet ovat 10% aktiivisia ja 90% passiivisia, ja ennustaa, että se voi kääntää tämän suhteen.

Qubolen kilpailijoihin kuuluvat Databricks, AWS ja Cloudera. On olemassa useita muita tuotteita, jotka vain kilpailevat jonkin verran Qubolen toiminnoista.

Databricks rakentaa muistikirjoja, koontinäyttöjä ja töitä klusterinhallinnan ja Sparkin päälle; Pidin siitä hyödyllisen alustan tutkijoille, kun tarkastelin sitä vuonna 2016. Databricks hankki äskettäin avoimen lähteen Delta Lake -tuotteestaan, joka tarjoaa ACID-tapahtumia, skaalautuvan metatiedon käsittelyn sekä yhtenäisen suoratoiston ja erätietojen käsittelyn järviin niiden luotettavuuden lisäämiseksi. ja auttaa heitä syöttämään Spark-analyysejä.

AWS: llä on laaja valikoima datatuotteita, ja itse asiassa Qubole tukee integrointia moniin niistä. Cloudera, joka sisältää nyt Hortonworksin, tarjoaa tietovarasto- ja koneoppimispalvelut sekä datakeskipalvelun. Qubole väittää, että sekä Databricksilla että Clouderalla ei ole taloushallintoa, mutta voit toteuttaa hallinnon itse yhden pilven tasolla tai käyttämällä usean pilven hallintatuotetta.

Kuinka Qubole toimii

Qubole integroi kaikki työkalunsa pilvipohjaiseen ja selainpohjaiseen ympäristöön. Keskustelen ympäristöstä tämän artikkelin seuraavassa osassa; tässä osiossa keskityn työkaluihin.

Qubole toteuttaa kustannusten hallinnan osana klusterien hallintaa. Voit määrittää, että klusterit käyttävät tiettyä ilmentymätyyppien yhdistelmää, mukaan lukien spot-esiintymät, jos ne ovat käytettävissä, sekä solmien vähimmäis- ja enimmäismäärän automaattiseen skaalautumiseen. Voit myös määrittää, kuinka kauan klusterin toiminta jatkuu ilman kuormaa, jotta vältetään "zombie" -ilmentymät.

Kipinä

Elokuussa julkaistussa artikkelissaan "Kuinka Qubole käsittelee Apache Spark -haasteita" Qubolen toimitusjohtaja Ashish Thusoo keskustelee Sparkin eduista ja sudenkuopista sekä siitä, miten Qubole korjaa vaikeudet, kuten kokoonpano, suorituskyky, kustannukset ja resurssien hallinta. Spark on Qubolen keskeinen osa datatieteilijöille, mikä mahdollistaa helpon ja nopean tiedonmuunnoksen ja koneoppimisen.

Presto

Presto on avoimen lähdekoodin hajautettu SQL-kyselymoottori interaktiivisten analyyttisten kyselyjen suorittamiseen kaiken kokoisia tietolähteitä vastaan, aina gigatavuista petatavuihin. Presto-kyselyt suoritetaan paljon nopeammin kuin Hive-kyselyt. Samanaikaisesti Presto voi nähdä ja käyttää Hive-metatietoja ja tietomalleja.

Pesä

Apache Hive on suosittu avoimen lähdekoodin projekti Hadoop-ekosysteemissä, joka helpottaa hajautetussa tallennustilassa olevien suurten tietojoukkojen lukemista, kirjoittamista ja hallintaa SQL: n avulla. Rakenne voidaan heijastaa jo tallennettuihin tietoihin. Hive-kysely suoritetaan Apache Tezin, Apache Sparkin tai MapReducen kautta. Hive Qubolella voi tehdä kuormitustietoisen automaattisen skaalauksen ja suoran kirjoittamisen; avoimen lähdekoodin pesässä ei ole näitä pilvipainotteisia optimointeja.

Qubolen perustajat olivat myös Apache Hiven luojia. He perustivat Hiven Facebookissa ja hankkivat sen vuonna 2008.

Kvantti

Quantum on Qubolen oma palvelimeton, automaattinen skaalaus, interaktiivinen SQL-kyselymoottori, joka tukee sekä Hive DDL: tä että Presto SQL: ää. Quantum on pay-as-you-go-palvelu, joka on kustannustehokas satunnaisille kyselymalleille, jotka leviävät pitkiä aikoja, ja sillä on tiukka tila estää odottamattomat kulut. Quantum käyttää Prestoa ja täydentää Presto-palvelinklustereita. Kvanttikyselyt on rajoitettu 45 minuutin ajoihin.

Ilmavirta

Airflow on Python-pohjainen alusta, jolla voidaan ohjelmoida, ajoittaa ja seurata työnkulkuja. Työnkulut ovat suunnattuja asyklisiä kaavioita (DAG) tehtävistä. Määrität DAG: t kirjoittamalla putkistoja Python-koodiin. Qubole tarjoaa Airflow-palvelun yhtenä palveluna; sitä käytetään usein ETL: ssä.

Uutta QuboleOperatoria voidaan käyttää kuten mitä tahansa muuta olemassa olevaa Airflow-operaattoria. Operaattorin suorituksen aikana työnkulussa se lähettää komennon Qubole Data Service -palveluun ja odottaa, kunnes komento on valmis. Qubole tukee tiedosto- ja Hive-taulukkoantureita, joita Airflow voi käyttää työnkulkujen ohjelmalliseen seurantaan.

Jos haluat nähdä Airflow-käyttöliittymän, sinun on ensin käynnistettävä Airflow-klusteri ja avattava sitten klusterisivu nähdäksesi Airflow-verkkosivuston.

RubiX

RubiX on Qubolen kevyt datan välimuistikehys, jota voi käyttää Hadoop-tiedostojärjestelmän käyttöliittymää käyttävä iso tietojärjestelmä. RubiX on suunniteltu toimimaan pilvivarastointijärjestelmien, kuten Amazon S3 ja Azure Blob Storage, kanssa ja välimuistitiedostojen tallentamiseksi paikalliselle levylle. Qubole on julkaissut RubiX: n avoimeen lähdekoodiin. RubiXin ottaminen käyttöön Qubolessa on valintaruudun valinta.

Mitä Qubole tekee?

Qubole tarjoaa end-to-end-alustan analytiikalle ja datatieteelle. Toiminto on jaettu kymmenkunnan moduulin kesken.

Tutki-moduulin avulla voit tarkastella tietotaulukoitasi, lisätä tietovarastoja ja määrittää tietojen vaihdon. AWS: ssä voit tarkastella datayhteyksiäsi, S3-ämpärejäsi ja Qubole Hive -tietovarastojasi.

Analyze- ja Workbench-moduulien avulla voit suorittaa ad hoc -kyselyjä tietojoukoillesi. Analyze on vanha käyttöliittymä ja Workbench on uusi käyttöliittymä, joka oli vielä beetaversiossa, kun yritin sitä. Molempien käyttöliittymien avulla voit vetää ja pudottaa tietokenttiä SQL-kyselyihisi ja valita moottorin, jota käytät toimintojen suorittamiseen: Quantum, Hive, Presto, Spark, tietokanta, kuori tai Hadoop.

Smart Query on lomakepohjainen SQL-kyselyjen rakennustyökalu Hivelle ja Prestolle. Mallien avulla voit käyttää parametrisoituja SQL-kyselyjä uudelleen.

Muistikirjat ovat Spark-pohjaisia ​​Zeppelin- tai (beetaversiossa) Jupyter-muistikirjoja datatieteelle. Koontinäytöt tarjoavat käyttöliittymän etsintöjen jakamista varten sallimatta pääsyä muistikirjoihisi.

Aikataulun avulla voit suorittaa kyselyitä, työnkulkuja, tietojen tuontia ja vientiä sekä komentoja automaattisesti ajoittain. Tämä täydentää Analyze- ja Workbench-moduuleissa suoritettavia ad-hoc-kyselyitä.

Clusters-moduulin avulla voit hallita Hadoop / Hive-, Spark-, Presto-, Airflow- ja deep learning (beta) -palvelinten klustereita. Käytön avulla voit seurata klusterin ja kyselyn käyttöä. Ohjauspaneelin avulla voit määrittää alustan joko itsellesi tai muille, jos sinulla on järjestelmänhallintaoikeudet.

Qubole päästä päähän -kävely

Kävin läpi tietokannan tuomisen, Hive-skeeman luomisen ja tuloksen analysoinnin Hive ja Presto sekä erikseen Spark-muistikirjassa. Katsoin myös Airflow DAGia samasta prosessista ja muistikirjaa koneoppimiseen Sparkin kanssa etuyhteydettömässä tietojoukossa.

Syvä oppiminen Qubolessa

Olemme nähneet datatieteen Qubolessa klassisen koneoppimisen tasolle asti, mutta entä syvällinen oppiminen? Yksi tapa suorittaa syvällinen oppiminen Qubolessa on lisätä Python-vaiheet muistikirjoihisi, jotka tuovat syvällisiä oppimiskehyksiä, kuten TensorFlow, ja käyttää niitä Sparkin kanssa jo suunnitelluissa tietojoukoissa. Toinen on soittaa Amazon SageMakerille muistikirjoista tai Airflow'sta olettaen, että Qubole-asennuksesi toimii AWS: llä.

Suurin osa Qubolessa tekemistäsi ei vaadi suorittamista näytönohjaimilla, mutta syvä oppiminen tarvitsee usein näytönohjaimia, jotta harjoittelu voidaan suorittaa kohtuullisessa ajassa. Amazon SageMaker huolehtii siitä suorittamalla syvälliset oppimisvaiheet erillisissä klustereissa, jotka voit määrittää niin monilla solmuilla ja näytönohjaimilla kuin tarvitaan. Qubole tarjoaa myös koneoppimisklustereita (beetaversiossa); AWS: ssä nämä mahdollistavat nopeutetut g- ja p-tyypin työntekijäsolmut Nvidia-näytönohjaimilla, ja Google Cloud Platformissa ja Microsoft Azuressa ne mahdollistavat vastaavat nopeutetut työntekijäsolmut.

Big data -työkalupaketti pilvessä

Qubole, pilvipohjainen tietojenkäsittelyalusta analytiikkaa ja koneoppimista varten, auttaa sinua tuomaan tietojoukot datajärvelle, rakentamaan skeemejä Hivella ja kyselemään tietoja Hive, Presto, Quantum ja Spark avulla. Se käyttää sekä muistikirjoja että Airflow'ta työnkulkujen rakentamiseen. Se voi myös kutsua muita palveluja ja käyttää muita kirjastoja, esimerkiksi Amazon SageMaker -palvelua ja TensorFlow Python -kirjastoa syvään oppimiseen.

Qubole auttaa sinua hallitsemaan pilvipanostuksiasi hallitsemalla klusterin esiintymien yhdistelmää, käynnistämällä ja automaattisen skaalauksen klustereita tarpeen mukaan ja sulkemalla klusterit automaattisesti, kun niitä ei käytetä. Se toimii AWS: llä, Microsoft Azurella, Google Cloud Platformilla ja Oracle Cloudilla.

Kaiken kaikkiaan Qubole on erittäin hyvä tapa hyödyntää (tai "aktivoida") tietojärviäsi, eristettyjä tietokantoja ja suuria tietoja. Voit testata Qubolea 14 päivän ajan ilmaiseksi valitsemallasi AWS-, Azure- tai GCP-näytteellä näytetiedoilla. Voit myös järjestää ilmaisen monipuolisen kokeiluversion jopa viidelle käyttäjälle ja kuukaudelle käyttämällä omaa pilviinfrastruktuuritiliäsi ja omia tietojasi.

Kustannus: Testi- ja kokeilutilit ilmaiseksi. Enterprise-alusta, 0,14 dollaria per QCU (Qubole Compute Unit) tunnissa.

Alusta: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.