Ohjelmointi

Tietojen analysointialustan valitseminen

Riippumatta siitä, onko sinulla vastuuta ohjelmistokehityksestä, devopsista, järjestelmistä, pilvipalveluista, testausautomaatiosta, sivuston luotettavuudesta, johtavista tutkimusryhmistä, infosecistä tai muusta tietotekniikan alueesta, sinulla on yhä enemmän mahdollisuuksia ja vaatimuksia työskennellä datan, analytiikan ja koneoppimisen kanssa .

Tech Spotlight: Analytics

  • Tietojen analysointialustan valitseminen ()
  • 6 parasta käytäntöä yritystietojen visualisointiin (Computerworld)
  • Terveydenhuollon analytiikka: 4 menestystarinaa (CIO)
  • SD-WAN ja analytiikka: Avioliitto uudelle normaalille (Network World)
  • Algoritmien suojaaminen immateriaalioikeuksina (CSO)

Altistuminen analytiikalle voi tulla tietotekniikan kautta, kuten kehittää mittareita ja oivalluksia ketteristä, devops- tai verkkosivustotiedoista. Ei ole parempaa tapaa oppia tietojen, analytiikan ja koneoppimisen perustaitoja ja -työkaluja kuin soveltaa niitä tietoihin, jotka tiedät ja joiden avulla voit saada oivalluksia toimintojen ohjaamiseksi.

Asiat muuttuvat hieman monimutkaisemmiksi, kun haaroitat IT-datamaailmasta ja tarjoat palveluja datatieteilijöille, kansalaisdatatieteilijöille ja muille yritysanalyytikoille, jotka suorittavat datan visualisointia, analytiikkaa ja koneoppimista.

Ensinnäkin tiedot on ladattava ja puhdistettava. Sitten datan määrästä, lajikkeesta ja nopeudesta riippuen kohtaat todennäköisesti useita taustatietokantoja ja pilvitietotekniikoita. Viime vuosina useiden viime vuosien aikana valinta liiketoimintatiedon ja tietojen visualisointityökalujen välillä on noussut monimutkaiseksi matriisiksi koko elinkaaren analytiikasta ja koneoppimisalustoista.

Analytiikan ja koneoppimisen merkitys lisää tietotekniikan vastuuta useilla alueilla. Esimerkiksi:

  • IT tarjoaa usein palveluja kaikkien tietojen integrointien, taustatietokantojen ja analyysialustojen ympärillä.
  • Devops-tiimit käyttävät ja laajentavat tietoinfrastruktuuria usein koneoppimismallien kokeilemiseen ja tukevat sitten tuotannon tietojenkäsittelyä.
  • Verkko-operaatiotiimit muodostavat turvalliset yhteydet SaaS-analyysityökalujen, multicloudien ja datakeskusten välille.
  • IT-palvelujen hallintatiimit vastaavat data- ja analytiikkapalvelupyyntöihin ja -tapauksiin.
  • Infosec valvoo tietoturvan hallintaa ja toteutuksia.
  • Kehittäjät integroivat analytiikan ja koneoppimismallit sovelluksiin.

Ottaen huomioon analytiikan, pilvitietoalustojen ja koneoppimisominaisuuksien räjähdyksen, tässä on perusteet analyysin elinkaaren ymmärtämiseksi paremmin tietojen integroinnista ja siivouksesta datapohjoihin ja mallipohjoihin, itse tietokantoihin, tietofoorumeihin ja analyysitarjouksiin.

Analytics alkaa tietojen integroinnilla ja tietojen puhdistuksella

Ennen kuin analyytikot, kansalaisdatatieteilijät tai tietojenkäsittelytiimit voivat suorittaa analyysia, vaadittujen tietolähteiden on oltava heidän saatavilla tietojen visualisointi- ja analyysialustoilla.

Aluksi saattaa olla liiketoimintavaatimuksia integroida tietoja useista yritysjärjestelmistä, poimia tietoja SaaS-sovelluksista tai suoratoistaa tietoja IoT-antureista ja muista reaaliaikaisista tietolähteistä.

Nämä ovat kaikki vaiheet tietojen keräämiseksi, lataamiseksi ja integroimiseksi analytiikkaa ja koneoppimista varten. Tietojen monimutkaisuudesta ja tietojen laadusta riippuen on mahdollisuuksia osallistua tietokantoihin, tietojen luettelointiin, perustietojen hallintaan ja muihin tiedonhallinta-aloitteisiin.

Me kaikki tiedämme lauseen "roskat sisään, roskat pois". Analyytikoiden on oltava huolissaan tietojensa laadusta, ja datatieteilijöiden on huolissaan koneoppimismalliensa puolueellisuudesta. Uuden datan integroinnin oikea-aikaisuus on myös kriittinen yrityksille, jotka haluavat tulla reaaliaikaisemmiksi datapohjaisiksi. Näistä syistä dataa lataavat ja käsittelevät putket ovat kriittisen tärkeitä analytiikassa ja koneoppimisessa.

Tietokannat ja tietoalustat kaikenlaisiin tiedonhallintahaasteisiin

Tietojen lataaminen ja käsittely on välttämätön ensimmäinen askel, mutta sitten asiat monimutkaistuvat optimaalisten tietokantojen valinnassa. Tämän päivän valintoja ovat yritystietovarastot, tietojärvet, suuret tietojenkäsittelyalustat ja erikoistuneet NoSQL-, kaavio-, avainarvo-, asiakirja- ja saraketietokannat. Laajan tietovarastoinnin ja analytiikan tukemiseksi on olemassa alustoja, kuten Snowflake, Redshift, BigQuery, Vertica ja Greenplum. Lopuksi on olemassa suuria tietoyhteisöalustoja, mukaan lukien Spark ja Hadoop.

Suurilla yrityksillä on todennäköisesti useita tietovarastoja ja ne käyttävät pilvipalvelualustoja, kuten Cloudera Data Platform tai MapR Data Platform, tai data-orkestrointialustoja, kuten InfoWorks DataFoundy, saadakseen kaikki nämä arkistot analytiikan saataville.

Suurimmilla julkisilla pilvillä, mukaan lukien AWS, GCP ja Azure, on kaikilla tiedonhallinta-alustoja ja -palveluja. Esimerkiksi Azure Synapse Analytics on Microsoftin SQL-tietovarasto pilvessä, kun taas Azure Cosmos DB tarjoaa käyttöliittymiä moniin NoSQL-tietovarastoihin, mukaan lukien Cassandra (saraketiedot), MongoDB (avainarvot ja dokumenttitiedot) ja Gremlin (kaaviotiedot) .

Datajärvet ovat suosittuja latauslaitureita rakentamattoman tiedon keskittämiseksi nopeaa analyysia varten, ja tätä tarkoitusta varten voidaan valita Azure Data Lake, Amazon S3 tai Google Cloud Storage. Suurten tietojen käsittelyä varten kaikilla AWS-, GCP- ja Azure-pilvillä on myös Spark- ja Hadoop-tarjoukset.

Analytics-alustojen kohteena on koneoppiminen ja yhteistyö

Kun tiedot ladataan, puhdistetaan ja tallennetaan, tutkijat ja analyytikot voivat aloittaa analytiikan ja koneoppimisen. Organisaatioilla on monia vaihtoehtoja riippuen analyysityypistä, työtä suorittavan analyysitiimin taidoista ja taustalla olevien tietojen rakenteesta.

Analytics voidaan suorittaa itsepalvelutietojen visualisointityökaluissa, kuten Tableau ja Microsoft Power BI. Molemmat näistä työkaluista kohdentavat kansantietotutkijoita ja paljastavat visualisointeja, laskelmia ja perustiedot. Nämä työkalut tukevat perustietojen integrointia ja tietojen uudelleenjärjestelyä, mutta monimutkaisempi tietojen sekoittuminen tapahtuu usein ennen analyysivaiheita. Tableau Data Prep ja Azure Data Factory ovat apuvälineitä tietojen integroimiseksi ja muuntamiseksi.

Analytics-tiimit, jotka haluavat automatisoida muutakin kuin vain tietojen integroinnin ja valmistelun, voivat etsiä sellaisia ​​alustoja kuin Alteryx Analytics Process Automation. Tämä kattava yhteistyöalusta yhdistää kehittäjät, analyytikot, kansalaisdatatutkijat ja datatieteilijät työnkulun automatisointiin ja itsepalvelutietojen käsittelyyn, analytiikkaan ja koneoppimisen käsittelyominaisuuksiin.

Alteryxin johtava analytiikka- ja datapäällikkö Alan Jacobson selittää: "Analyyttisen prosessiautomaation (APA) syntyminen kategoriana korostaa uutta odotusta organisaation jokaiselle työntekijälle datatyöntekijäksi. IT-kehittäjät eivät ole poikkeus, ja Alteryx APA -alustan laajennettavuus on erityisen hyödyllistä näille osaamistyöntekijöille. "

Datatieteilijöille on useita työkaluja ja alustoja, joiden tarkoituksena on tehdä niistä tuottavampia Pythonin ja R: n kaltaisilla tekniikoilla ja yksinkertaistaa monia käyttö- ja infrastruktuurivaiheita. Esimerkiksi Databricks on tietojenkäsittelyalusta, joka mahdollistaa algoritmien käyttöönoton Apache Sparkille ja TensorFlow'lle samalla, kun se itse hallinnoi AWS- tai Azure-pilven tietokoneklustereita.

Jotkut alustat, kuten SAS Viya, yhdistävät tietojen valmistelun, analytiikan, ennustamisen, koneoppimisen, tekstianalytiikan ja koneoppimismallin hallinnan yhdeksi mallops-alustaksi. SAS operoi analytiikkaa ja kohdistaa datatutkijat, liike-analyytikot, kehittäjät ja avainhenkilöt end-to-end-yhteistyöalustalla.

SAS: n päätöksentekotutkimuksen ja -kehityksen johtaja David Duling sanoo: "Me pidämme mallinnuksia käytäntönä luoda toistettava, auditoitava toimintalinja kaiken analytiikan, mukaan lukien tekoäly- ja ML-mallit, käyttöönottamiseksi käyttöjärjestelmissä. Osana malleja voimme käyttää nykyaikaisia ​​devops-käytäntöjä koodinhallintaan, testaukseen ja seurantaan. Tämä auttaa parantamaan mallien käyttöönoton tiheyttä ja luotettavuutta, mikä puolestaan ​​parantaa näihin malleihin rakennettujen liiketoimintaprosessien ketteryyttä. "

Dataiku on toinen foorumi, joka pyrkii tuomaan datan valmistelun, analytiikan ja koneoppimisen kasvaville tietojenkäsittelytiimeille ja heidän yhteistyökumppaneilleen. Dataikulla on visuaalinen ohjelmointimalli, joka mahdollistaa yhteistyön ja koodivihkot edistyneemmille SQL- ja Python-kehittäjille.

Muiden johtavien yritysohjelmistotoimittajien analytiikan ja koneoppimisalustojen tavoitteena on tuoda analyysimahdollisuudet datakeskuksiin ja pilvitietolähteisiin. Esimerkiksi Oracle Analytics Cloud ja SAP Analytics Cloud pyrkivät keskittämään älykkyyden ja automatisoimaan oivallukset päästä päähän -päätösten mahdollistamiseksi.

Tietojen analysointialustan valitseminen

Tietojen integrointi-, varastointi- ja analyysityökalujen valitseminen oli aiemmin suoraviivaisempaa ennen isojen tietojen, koneoppimisen ja tiedonhallinnan nousua. Nykyään sekoitus terminologiaa, alustan ominaisuuksia, operatiivisia vaatimuksia, hallintotarpeita ja kohdennettuja käyttäjähenkilöitä tekevät alustojen valinnasta monimutkaisemman, varsinkin kun monet toimittajat tukevat useita käyttöparadigmia.

Yritykset eroavat analyysivaatimuksista ja tarpeista, mutta niiden tulisi etsiä uusia alustoja jo olemassa olevan näkökulmasta. Esimerkiksi:

  • Yritykset, jotka ovat menestyneet kansalaisten datatiedeohjelmissa ja joilla on jo tietojen visualisointityökalut, saattavat haluta laajentaa ohjelmaa analyysiprosessiautomaatiolla tai tietojen valmistelutekniikoilla.
  • Yritykset, jotka haluavat työkaluketjun, joka mahdollistaa liiketoiminnan eri osissa työskentelevien datatieteilijöiden, voivat harkita kattavia analyysialustoja, joissa on mallopohjaiset ominaisuudet.
  • Organisaatiot, joilla on useita eri taustadata-alustoja, voivat hyötyä pilvipalvelualustoista niiden luetteloimiseksi ja keskitetyksi hallinnoimiseksi.
  • Yritysten, jotka standardoivat kaikki tai suurimman osan tietomahdollisuuksista yhdelle julkiselle pilvimyyjälle, tulisi tutkia tarjotut tietojen integrointi-, hallinta- ja data-analyysialustat.

Kun analytiikasta ja koneoppimisesta on tulossa tärkeä ydinosaaminen, teknologien tulisi harkita syventävänsä ymmärrystään käytettävissä olevista alustoista ja kyvyistään. Analyysialustojen voima ja arvo vain kasvavat, samoin kuin niiden vaikutus koko yrityksessä.