Katsaus: Amazon SageMaker pelaa kiinniottoa

Tarkastellessani Amazon SageMakeria vuonna 2018 huomasin, että se oli erittäin skaalautuva koneoppimis- ja syväoppimispalvelu, joka tukee 11 omaa algoritmia ja muita tarjoamiasi algoritmeja. Hyperparametrien optimointi oli edelleen esikatselussa, ja sinun oli tehtävä oma ETL- ja ominaisuusinsinöörit.

Sittemmin SageMaker on laajentunut laajentamalla ydinmuistikirjoja IDE: llä (SageMaker Studio) ja automatisoidulla koneoppimisella (SageMaker Autopilot) ja lisäämällä joukon tärkeitä palveluja koko ekosysteemiin alla olevan kaavion mukaisesti. Tämä ekosysteemi tukee koneoppimista valmistelusta mallin rakentamiseen, koulutukseen ja viritykseen käyttöönottoon ja hallintaan - toisin sanoen päästä päähän.

Mitä uutta SageMakerissa on?

Mikä on uutta? Koska tarkastelin viimeksi SageMakeria juuri sen julkaisemisen jälkeen, luettelo on melko pitkä, mutta aloitetaan näkyvimmistä palveluista.

SageMaker Studio, JupyterLab-pohjainen IDE
SageMaker Autopilot, joka rakentaa ja kouluttaa automaattisesti jopa 50 ominaisuusrakennettua mallia, joita voidaan tutkia SageMaker Studiossa
SageMaker Ground Truth, joka auttaa rakentamaan ja hallinnoimaan harjoittelutietoaineistoja
SageMaker Notebooks tarjoaa nyt joustavan laskennan ja yhden napsautuksen jakamisen
SageMaker Experiments, joka auttaa kehittäjiä visualisoimaan ja vertaamaan koneoppimismallien iteraatioita, koulutusparametreja ja tuloksia
SageMaker Debugger, joka tarjoaa reaaliaikaisen seurannan koneoppimismalleille ennakoivan tarkkuuden parantamiseksi, harjoitteluaikojen lyhentämiseksi ja paremman selittävyyden helpottamiseksi
SageMaker Model Monitor, joka havaitsee konseptin kulkeutumisen havaitsemaan, kun tuotannossa olevan mallin suorituskyky alkaa poiketa alkuperäisestä koulutetusta mallista

Muita merkittäviä parannuksia ovat spot-instanssien valinnainen käyttö kannettavissa kustannusten alentamiseksi; uusi P3dn.24xl-ilmentymätyyppi, joka sisältää kahdeksan V100-näytönohjainta; AWS-optimoitu TensorFlow-kehys, joka saavuttaa lähes lineaarisen skaalautuvuuden koulutettaessa monen tyyppisiä hermoverkkoja; Amazon Elastic Inference, mikä voi vähentää dramaattisesti päättelykustannuksia; AWS Inferentia, joka on korkean suorituskyvyn koneoppimisen päättelysiru; ja uudet algoritmit, sekä sisäänrakennetut SageMakeriin että saatavana AWS Marketplacessa. Lisäksi SageMaker Neo kokoaa syvällisiä oppimismalleja toimimaan reunalaskentalaitteilla, ja SageMaker RL (ei näy kaaviossa) tarjoaa hallitun vahvistuksen oppimispalvelun.

SageMaker Studio

JupyterLab on seuraavan sukupolven web-pohjainen käyttöliittymä Project Jupyterille. SageMaker Studio käyttää JupyterLabia perustana IDE: lle, joka on yhtenäinen online-koneoppimisen ja syvällisen oppimisen työasema, jossa on yhteistyöominaisuuksia, kokeiden hallintaa, Git-integraatiota ja automaattista mallin luomista.

Alla olevassa kuvakaappauksessa näytetään, kuinka SageMaker-esimerkit asennetaan SageMaker Studio -esiintymään terminaali-välilehden ja Git-komentorivin avulla. Ohjeet tämän tekemiseen ovat tämän esimerkin README-tiedostossa, joka on eräänlainen Catch-22. Voit lukea ne selaamalla GitHubin Aloittaminen-esimerkkiä tai kloonaamalla arkiston omalle koneellesi ja lukemalla sen siellä.

Amazonin Getting Started -esimerkki sisältää muistikirjan nimeltä xgboost_customer_churn_studio.ipynb, joka on mukautettu asiakasvaihdon ennustamista koskevasta blogikirjoituksesta. Kun Jupyter-muistikirjat menevät, sillä on paljon selityksiä, kuten näet alla olevista kuvakaappauksista.

Esimerkissä suoritetaan lisäkoulutus ulkoisella XGBoost-algoritmilla, jota on muokattu virheenkorjaustietojen tallentamiseksi Amazon S3: een ja kolmen virheenkorjaussäännön käyttämiseen. Tätä kutsutaan puitteet tilassa, mikä tarkoittaa, että se ei ole sisäänrakennettu algoritmi.

Kun kaikki koulutukset on tehty, voit verrata tuloksia Kokeilut-välilehdessä.

Sitten esimerkki isännöi mallia sen avulla ottaa käyttöön menetelmä ja testaa käytetyn päätepisteen sen avulla ennustaa menetelmä. Lopuksi se luo perustason työpaikan koulutuksen tietojoukolla ja ajoitetun valvontatyön, joka ilmoittaa kaikista rajoitusten rikkomuksista.

Muuten, XGBoost on vain yksi monista SageMakeriin sisäänrakennetuista algoritmeista. Täydellinen luettelo näkyy alla olevassa taulukossa - ja voit aina luoda oman mallisi.

SageMaker-autopilotti

Oletetaan, että et tiedä, miten tehdä piirustekniikkaa, ja et ole kovin perehtynyt koneen oppimistehtäviin käytettävissä oleviin erilaisiin algoritmeihin. Voit silti käyttää SageMakeria - anna sen toimia vain autopilotilla. SageMaker Autopilot pystyy käsittelemään enintään 5 Gt: n kokoisia tietojoukkoja.

Alla olevassa kuvakaappauksessa suoritamme suoramarkkinoinnin Amazon SageMaker Autopilot -esimerkillä. Se alkaa lataamalla tiedot, purkamalla ne, lataamalla ne S3-ämpäriin ja käynnistämällä Autopilot-työn kutsumalla create_auto_ml_job-sovellusliittymää. Sitten seuraamme työn etenemistä, kun se analysoi tietoja, tekee ominaisuuksien suunnittelua ja mallin viritystä alla olevan kuvan mukaisesti.

Sitten esimerkki valitsee parhaan mallin, käyttää sitä päätepisteen luomiseen ja isännöintiin ja suorittaa muunnostyön mallin ennusteiden lisäämiseksi testitietojen kopioon. Lopuksi se löytää kaksi Autopilot-työn luomaa muistikirjaa.

Autopilotin tuloksiin on käyttöliittymä, vaikka se ei ole ilmeistä. Jos napsautat hiiren kakkospainikkeella automl-kokeilua, näet kaikki kokeet niiden objektiivisilla arvoilla, kuten alla on esitetty.

SageMaker Ground Truth

Jos olet onnekas, kaikki tietosi merkitään tai muuten merkitään ja ovat valmiita käytettäväksi koulutuksen tietojoukkona. Jos ei, voit merkitä tiedot manuaalisesti (tavallinen vitsi on, että annat tehtävän tutkinnon suorittaneille) tai voit käyttää puolivalvottua oppimisprosessia, joka yhdistää ihmisen merkinnät automaattisiin merkintöihin. SageMaker Ground Truth on tällainen merkintäprosessi.

Kuten alla olevasta kaaviosta näet, maaperän totuutta voidaan soveltaa useisiin erilaisiin tehtäviin. Ground Truth -sovelluksen avulla voit käyttää nimettyjen tietojoukkojen luomista joko Amazon Mechanical Turkin tai valitsemasi myyjäyrityksen työntekijöillä tai sisäisellä, yksityisellä työvoimalla.

Amazon tarjoaa seitsemän läpikäyntiä, jotka osoittavat erilaisia tapoja käyttää SageMaker Ground Truth -sovellusta.

SageMaker Neo

Viime aikoihin asti koulutettujen mallien sijoittaminen reuna-laitteisiin - esimerkiksi älypuhelimiin ja IoT-laitteisiin - on ollut vaikeaa. On ollut erityisiä ratkaisuja, kuten TensorFlow Lite TensorFlow-malleille ja TensorRT Nvidia-laitteille, mutta SageMaker Neo kokoaa ja optimoi TensorFlow-, Apache MXNet-, PyTorch-, ONNX- ja XGBoost-mallit myös ARM-, Intel- ja Nvidia-prosessoreille. Qualcomm-, Cadence- ja Xilinx-laitteina.

AWS: n mukaan Neo voi kaksinkertaistaa mallien suorituskyvyn ja pienentää niitä tarpeeksi toimiakseen reunalaitteissa, joissa on rajoitettu määrä muistia.

SageMakerin päätelmän käyttöönottovaihtoehdot

Laskennan, tallennuksen, verkonsiirron jne. Osalta tuotannon päättelymallien käyttöönotto on usein 90 prosenttia syvällisen oppimisen kustannuksista, kun taas koulutus on vain 10 prosenttia kustannuksista. AWS tarjoaa monia tapoja vähentää päätelmän kustannuksia.

Yksi näistä on elastinen päätelmä. AWS: n mukaan elastinen päättely voi nopeuttaa läpimenoa ja vähentää reaaliaikaisen päätelmän saamisen viivettä syvällisistä oppimismalleista, jotka on otettu käyttöön Amazon SageMaker -isännöityinä malleina, mutta murto-osalla GPU-ilmentymän käytöstä päätepisteessä. Elastinen päättely nopeuttaa päätelmää antamalla sinun liittää murto-osien grafiikkasuoritimia mihin tahansa Amazon SageMaker -esiintymään.

Elastista päättelyä tuetaan TensorFlow-, Apache MXNet- ja PyTorch-versioissa, joissa on joustavat päätelmät. Jos haluat käyttää mitä tahansa muuta syvällisen oppimisen kehystä, vie mallisi ONNX: n avulla ja tuo malli sitten MXNetiin.

Jos tarvitset enemmän kuin 32 TFLOPS-kiihdytintä, jonka saat Elastic Inference -sovelluksesta, voit käyttää EC2 G4 -esiintymiä, joissa on Nvidia T4 -näytönohjaimia, tai EC2 Inf1 -esiintymiä, joissa on mukautetut AWS Inferentia -kiihdytinpiirit. Jos tarvitset Inferentia-sirujen nopeuden, voit AWS Neuron SDK: n avulla koota syvällisen oppimismallisi Neuron Executable File Format (NEFF) -muodoksi, jonka Neuron-ajo-ohjain puolestaan lataa suorittamaan Inferentian päättelysyöttöpyynnöt. pelimerkkejä.

Tässä vaiheessa Amazon SageMaker Studio -esikatselu on tarpeeksi hyvä käytettäväksi koneiden oppimiseen ja syvään oppimiseen: tietojen valmisteluun, mallikoulutukseen, mallin käyttöönottoon ja mallin seurantaan. Vaikka käyttökokemus jättää vielä toivomisen varaa, kuten toimintojen paremman löytämisen, Amazon SageMaker on nyt kilpailukykyinen muissa pilvissä olevien koneoppimisympäristöjen kanssa.

—

Kustannus: 0,0464 dollaria - 34,272 dollaria per instanssitunti laskennalle CPU: iden ja GPU: iden lukumäärästä riippuen; SSD-tallennustila: 0,14 dollaria / GB-kuukausi; Tiedonsiirto: 0,016 dollaria / gigatavu sisään tai ulos.

Alusta: Isännöi Amazon Web Services -palvelussa.