Ohjelmointi

Katsaus: Google Cloud AutoML on todella automatisoitu koneoppiminen

Kun yrität kouluttaa tietojesi parhaita koneoppimismalleja automaattisesti, on olemassa AutoML tai automaattinen koneoppiminen ja sitten Google Cloud AutoML. Google Cloud AutoML on leikkaus yllä.

Aiemmin olen tarkastellut H2O Driverless AI, Amazon SageMaker ja Azure Machine Learning AutoML. Kuljettajaton tekoäly suorittaa automaattisesti ominaisuuksien suunnittelun ja hyperparametrien virityksen ja väittää suorittavansa yhtä hyvin kuin Kaggle-masterit. Amazon SageMaker tukee hyperparametrien optimointia. Azure Machine Learning AutoML lakaisee automaattisesti koneoppimisen algoritmien ominaisuudet, algoritmit ja hyperparametrit; erillisen Azure Machine Learning -parametrien viritysominaisuuden avulla voit pyyhkiä tiettyjä hyperparametreja olemassa olevalle kokeelle.

Nämä ovat hyviä, mutta Google Cloud AutoML siirtyy aivan toiselle tasolle ja mukauttaa Googlen taistelutestatut, erittäin tarkat syvät hermoverkot tunnisteillesi. Sen sijaan, että aloitettaisiin alusta alkaen, kun harjoitellaan malleja datastasi, Google Cloud AutoML toteuttaa automaattisen syvän siirron oppimisen (tarkoittaen, että se alkaa olemassa olevasta syvästä hermoverkosta, joka on koulutettu muuhun dataan) ja hermoarkkitehtuurihakuun (mikä tarkoittaa, että se löytää oikean yhdistelmän ylimääräistä verkkokerrokset) kieliparien käännökselle, luonnollisen kielen luokittelulle ja kuvaluokitukselle.

Kullakin alueella Googlella on jo yksi tai useampi valmiiksi koulutettu palvelu, joka perustuu syviin hermoverkkoihin ja valtaviin leimattuihin tietoihin. Nämä voivat hyvinkin toimia tietojesi muokkaamattomana, ja sinun on testattava tämä säästääksesi aikaa ja rahaa. Jos nämä palvelut eivät tee sitä, mitä tarvitset, Google Cloud AutoML auttaa sinua luomaan mallin, joka tekee niin, ilman että sinun tarvitsee tietää, miten siirtää oppimista tai edes luoda hermoverkkoja.

Siirto-oppiminen tarjoaa kaksi suurta etua verrattuna hermoverkon harjoittamiseen alusta alkaen. Ensinnäkin se vaatii paljon vähemmän tietoa koulutukseen, koska suurin osa verkon kerroksista on jo hyvin koulutettuja. Toiseksi se toimii paljon nopeammin, koska se optimoi vain viimeiset kerrokset.

Google Cloudin automaattinen käännös

Joten voit esimerkiksi treenata 1000 kaksikielistä lauseparia vastaan ​​tunnissa tai kahdessa Google Cloud AutoML Translation -siirto-oppimisen avulla. Räätälöitävä perusverkkoverkko, NMT, kesti satoja tuhansia tunteja, ennen kuin kouluttaminen alusta alkaen kullekin kieliparille suurella määrällä suorittimia ja grafiikkasuoritimia. Huomaa, että räätälöidyn käännösmallin koulutuksen tuntimaksu on tällä hetkellä 76 dollaria.

AutoML-käännöksen aloittelijan opas kertoo perusteet siihen, mitä Google Cloud AutoML -käännös voi tehdä, ja miksi käytät sitä. Pohjimmiltaan se tarkentaa olemassa olevaa yleistä käännösmallia kapealle tarkoitukselle. Sinun ei tarvitse tehdä mitään koulutusta yleinen noin sadan kielen käännös, jota Google jo tukee, mutta sinun on suoritettava siirto-oppiminen, jos haluat luoda käännösverkon erikoistunut sanasto tai käyttö. Yksi esimerkki Googlen mainitsemisesta on aikaherkkien taloudellisten asiakirjojen kääntäminen reaaliajassa. Yleiskäyttöisessä käännöksessä ei aina käytetä oikeita rahoitusehtoja.

Koulutuksen määrittäminen Google Cloud AutoML -käännökselle on viisivaiheinen prosessi, kuten alla olevissa kuvakaappauksissa näkyy, kun olet valmistanut tiedoston lauseparilla. Käytin 8720 englannin-espanjan paria sovelluskehotteisiin, jotka Google antoi AutoML-käännöksen pikakäynnistyksessä, joka oli muotoiltu sarkaimilla erotettuina arvotiedostoina. Google Cloud AutoML Translation tukee myös XML-pohjaista käännösmuistin eXchange (TMX) -muotoa lauseparille.

Huomaa, että koulutuksen suorittamiseen käytettyä laitteistoa (suorittimia, näytönohjaimia, TPU: ita ja muistia) ei voida hallita. Se on tarkoituksellista: Koulutus käyttää mitä tarvitsee. Ei ole myöskään vaihtoehtoja malliin lisättävien hermoverkkokerrosten, ajettavien aikakausien lukumäärän tai pysäytyskriteerien hallitsemiseksi.

Kun mallikoulutus on valmis, voit tarkastella BLEU-pistemäärän parannusta (jos kaikki menee hyvin) perusmalliin nähden ja yrittää tehdä ennusteita mallilla. Tämä koulutus kesti 0,9 tuntia (vähemmän kuin ennustettiin) ja maksoi 68,34 dollaria.

Google Cloud AutoML Luonnollinen kieli

Google Natural Language -sovellusliittymä ottaa tekstiä ja ennustaa entiteetit, mielipiteet, syntaksin ja luokat (ennalta määritetystä luettelosta). Jos tekstiluokitteluongelmasi ei sovi mihinkään näistä, voit toimittaa merkityn lausejoukon ja luoda Google Cloud AutoML -luonnollisella kielellä mukautetun luokittelijan.

Jos haluat määrittää AutoML-luonnollisen kielen koulutusta varten, sinun on hankittava tietosi, merkittävä ne, valmisteltava se CSV-tiedostona ja suoritettava koulutus. Voit käyttää tietoja AutoML Natural Language -käyttöliittymällä myös halutessasi.

Kun mallikoulutus on valmis, voit tarkastella mallin tarkkuutta, palauttamista ja sekaannusta. Voit myös säätää pistekynnystä halutulle tarkkuuden / palautuksen kompromissille. Optimoi vääriä negatiivisia vikoja optimoimalla palautus. Optimoi tarkkuus minimoidaksesi väärät positiiviset tulokset.

Tämä koulutus kesti 3,63 tuntia (suunnilleen ennustettu) ja maksoi 10,88 dollaria.

Google Cloud AutoML Vision

Google Cloud Vision -sovellusliittymä luokittelee kuvat tuhansiin ennalta määriteltyihin luokkiin, tunnistaa kuvissa olevat yksittäiset objektit ja kasvot sekä löytää ja lukee kuvien sisältämät painetut sanat. Google Cloud AutoML Vision -sovelluksen avulla voit määrittää ja kouluttaa oman luokaluettelosi. Jotkut tosielämän sovellukset sisältävät tuuliturbiinien vaurioiden havaitsemisen drone-valokuvista ja kierrätettävien aineiden luokittelun jätehuoltoa varten.

Google Cloud AutoML Vision -tietojoukon määrittämiseksi sinun on hankittava vähintään 100 kuvaa kullekin luokalle ja merkittävä ne CSV-tiedostoon. Kaikkien kuvien ja CSV-tiedoston on oltava Google Cloud Storage -säilössä.

Asetin tämän koulutuksen kestämään enintään tunnin, joka on ilmainen jopa 10 mallille kuukaudessa. Olin iloisesti yllättynyt nähdessäni hyviä tuloksia ilmaisesta harjoittelusta, enkä vaivautunut jatkamaan harjoittelua tarkkuuden parantamiseksi ja palauttamiseksi.

Google Cloud AutoML tarjoaa käteviä vaihtoehtoja kohdennettujen käännösten, mukautetun tekstiluokituksen ja mukautetun kuvaluokituksen suorittamiseen. Jokainen näistä sovellusliittymistä toimii hyvin, jos annat sille tarpeeksi tarkasti merkittyjä tietoja ja vie paljon vähemmän aikaa ja taitoja kuin oman hermoverkkomallin tai jopa oman siirtooppimismallin rakentaminen. Google Cloud AutoML -sovelluksella luot itse asiassa TensorFlow-malleja tietämättä mitään TensorFlow-, Python-, hermoverkkoarkkitehtuureista tai koulutuslaitteista.

On monia tapoja saada tietojen valmistelu väärin, mutta onneksi kaikki kolme sovellusliittymää tarkistavat yleisimmät virheet, kuten esimerkiksi liian vähän tai liian monta esimerkkiä mille tahansa luokalle. Harjoituksen jälkeen näytetty diagnoosi antaa sinulle hyvän kuvan mallisi toiminnasta, ja voit helposti säätää malleja lisäämällä merkittyjä harjoitustietoja ja suorittamalla harjoittelun uudelleen.

Kustannus: Google Cloudin automaattinen käännös: Koulutus maksaa 76,00 dollaria tunnissa, käännös 80 dollaria miljoonaa merkkiä ensimmäisen 500 kt: n jälkeen. Google Cloud AutoML Luonnollinen kieli: Koulutus maksaa 3,00 dollaria tunnissa, luokitus 5 dollaria tuhatta tekstitietueesta ensimmäisen 30 kt jälkeen. Google Cloud AutoML Vision: Koulutus maksaa 20 dollaria tunnissa ensimmäisen tunnin jälkeen, luokitus 3 dollaria tuhatta kuvaa ensimmäisen tuhannen jälkeen.

Alusta: Google Cloud Platform