Ohjelmointi

Valvomaton oppiminen on selitetty

Valvotun koneoppimisen ja syvällisen oppimisen onnistumisesta huolimatta on olemassa koulukunta, joka sanoo, että valvomattomalla oppimisella on vielä suurempi potentiaali. Valvotun oppimisjärjestelmän oppimista rajoittaa sen koulutus; ts. valvottu oppimisjärjestelmä voi oppia vain niitä tehtäviä, joihin se on koulutettu. Sitä vastoin valvomaton järjestelmä voisi teoreettisesti saavuttaa "keinotekoisen älykkyyden", mikä tarkoittaa kykyä oppia mikä tahansa ihmisen oppima tehtävä. Teknologiaa ei kuitenkaan ole vielä olemassa.

Jos valvotun oppimisen suurin ongelma on koulutustietojen merkitsemisen kustannus, valvomattoman oppimisen suurin ongelma (jos tietoja ei ole merkitty) on, että se ei usein toimi kovin hyvin. Valvomattomalla oppimisella on kuitenkin käyttötarkoituksiaan: Se voi joskus olla hyvä vähentämään tietojoukon ulottuvuutta, tutkimaan datan mallia ja rakennetta, etsimään samankaltaisten esineiden ryhmiä ja havaitsemaan poikkeamat ja muu melua tiedoista.

Yleensä kannattaa kokeilla valvomattomia oppimismenetelmiä osana tutkimustietojen analyysiä mallien ja klustereiden löytämiseksi, tietojen dimensioiden vähentämiseksi, piilevien ominaisuuksien löytämiseksi ja poikkeavuuksien poistamiseksi. Onko sinun sitten siirryttävä valvottuun oppimiseen vai ennalta koulutettujen mallien käyttämiseen ennusteiden tekemiseen, riippuu tavoitteistasi ja tiedoistasi.

Mikä on valvomaton oppiminen?

Ajattele, kuinka ihmislapset oppivat. Vanhempana tai opettajana sinun ei tarvitse näyttää pienille lapsille kaikkia koiran- ja kissarotuja opettaakseen heitä tunnistamaan koirat ja kissat. He voivat oppia muutamasta esimerkistä ilman paljon selityksiä ja yleistää itse. Voi, he saattavat virheellisesti kutsua chihuahua “kisuksi” ensimmäistä kertaa nähdessään, mutta voit korjata sen suhteellisen nopeasti.

Lapset kertovat intuitiivisesti ryhmät näkemistään luokkiin. Yksi valvomaton oppimisen tavoite on lähinnä antaa tietokoneiden kehittää sama kyky. Kuten Alex Graves ja Kelly Clancy DeepMindistä sanoivat blogikirjoituksessaan "Valvomaton oppiminen: utelias oppilas"

Valvomaton oppiminen on paradigma, joka on suunniteltu luomaan itsenäinen älykkyys palkitsemalla aineita (toisin sanoen tietokoneohjelmia) havainnoimiensa tietojen oppimisesta ilman erityistä tehtävää. Toisin sanoen agentti oppii oppimisen vuoksi.

Agentin, joka oppii oppimisen vuoksi, potentiaali on paljon suurempi kuin järjestelmän, joka pienentää monimutkaiset kuvat binääriseksi päätökseksi (esim. Koira tai kissa). Kuvioiden paljastaminen ennalta määritetyn tehtävän suorittamisen sijaan voi tuottaa yllättäviä ja hyödyllisiä tuloksia, kuten käy ilmi, kun Lawrence Berkeley Labin tutkijat juoksivat tekstinkäsittelyalgoritmin (Word2vec) useilla miljoonilla materiaalitiedeillä ennustamaan uusien lämpösähköisten materiaalien löytöjä.

Ryhmittelymenetelmät

Klusterointiongelma on valvomaton oppimisongelma, joka pyytää mallia etsimään samanlaisia ​​datapisteitä. Tällä hetkellä käytössä on useita klusterointialgoritmeja, joilla on yleensä hieman erilaiset ominaisuudet. Yleensä klusterointialgoritmit tarkastelevat datapisteiden ominaisvektoreiden metriikkaa tai etäisyysfunktioita ja ryhmitellään sitten "lähellä" toisiaan. Klusterointialgoritmit toimivat parhaiten, jos luokat eivät ole päällekkäisiä.

Hierarkkinen ryhmittyminen

Hierarkkinen klusterianalyysi (HCA) voi olla agglomeratiivinen (rakennat klusterit alhaalta ylöspäin alkaen yksittäisistä pisteistä ja päättyen yhdellä klusterilla) tai jakava (aloitat yhdellä klusterilla ja hajotat sen, kunnes päätät yksittäisten pisteiden kanssa). Jos olet onnekas, löydät klusterointiprosessin välivaiheen, joka heijastaa mielekästä luokitusta.

Klusterointiprosessi näytetään yleensä dendrogrammana (puukaavio). HCA-algoritmit vievät yleensä paljon laskenta-aikaa [O(n3)] ja muisti [O(n2)] resurssit; nämä rajoittavat algoritmien sovellettavuutta suhteellisen pieniin tietojoukoihin.

HCA-algoritmeissa voidaan käyttää erilaisia ​​mittareita ja linkityskriteerejä. Euklidinen etäisyys ja neliön mukainen euklidinen etäisyys ovat molemmat yhteisiä numeerisille tiedoille; Hammingin ja Levenshteinin etäisyys ovat yhteisiä ei-numeerisille tiedoille. Yksi- ja täydellinen kytkentä ovat yhteisiä; molemmat näistä voivat yksinkertaistaa klusterointialgoritmeja (vastaavasti SLINK ja CLINK). SLINK on yksi harvoista klusterointialgoritmeista, jotka takaavat optimaalisen ratkaisun löytämisen.

K tarkoittaa ryhmittelyä

K-tarkoittaa klusterointiongelmaa, joka yrittää jakaa n havainnot k klusterit, jotka käyttävät euklidista etäisyysmetriikkaa, tavoitteena minimoida kunkin klusterin varianssi (neliöiden summa). Se on vektorikvantisointimenetelmä, ja se on hyödyllinen ominaisuuksien oppimisessa.

Lloydin algoritmi (iteroiva klustereiden yhteenveto ja centroid-päivitykset) on yleisin heuristinen ratkaisu, jota käytetään ongelman ratkaisemiseen, ja se on suhteellisen tehokas, mutta ei takaa maailmanlaajuista lähentymistä. Tämän parantamiseksi ihmiset suorittavat algoritmin usein useita kertoja käyttämällä Forgy- tai Random Partition -menetelmillä luotuja satunnaisia ​​alkuklusterikeskiöitä.

K-tarkoittaa oletuksena pallomaisia ​​klustereita, jotka ovat erotettavissa siten, että keskiarvo lähenee kohti klusterikeskusta, ja oletetaan myös, että datapisteiden järjestyksellä ei ole merkitystä. Klustereiden odotetaan olevan samankokoisia, joten lähimpään klusterikeskukseen kohdistaminen on oikea tehtävä.

Heuristiikka k-keskiarvoryhmien ratkaisemiseksi on yleensä samanlainen kuin odotusten maksimoinnin (EM) algoritmi Gaussin seosmalleille.

Seosmallit

Seosmalleissa oletetaan, että havaintojen alaryhmät vastaavat jotakin todennäköisyysjakaumaa, tavallisesti Gaussin jakaumia numeerisiin havaintoihin tai kategorisia jakaumia ei-numeerisiin tietoihin. Jokaisella alaryhmällä voi olla omat jakautumisparametrit, esimerkiksi Gaussin jakaumien keskiarvo ja varianssi.

Odotusten maksimointi (EM) on yksi suosituimmista tekniikoista, joita käytetään määrittämään seosten parametrit, joissa on tietty määrä komponentteja. EM: n lisäksi seosmallit voidaan ratkaista Markov-ketjulla Monte Carlolla, momenttisovituksella, spektriarvomenetelmillä, joilla on yksikköarvohajoaminen (SVD), ja graafisilla menetelmillä.

Alkuperäinen seosmallihakemus oli erottaa kaksi rannanrapupopulaatiota otsan ja kehon pituussuhteiden perusteella. Karl Pearson ratkaisi tämän ongelman vuonna 1894 käyttämällä hetkensovitusta.

Seosmallien yleinen laajennus on yhdistää seoskomponenttien identiteetit määrittävät piilevät muuttujat Markov-ketjuun sen sijaan, että oletettaisiin, että ne ovat riippumattomia identtisesti jakautuneita satunnaismuuttujia. Tuloksena olevaa mallia kutsutaan piilotetuksi Markov-malliksi ja se on yksi yleisimmistä peräkkäisistä hierarkkisista malleista.

DBSCAN-algoritmi

Tiheyspohjainen paikkakohtainen klusterointi melulla (DBSCAN) on ei-parametrinen tiedonklusterointialgoritmi, joka on peräisin vuodelta 1996. Se on optimoitu käytettäväksi tietokantojen kanssa, jotka voivat kiihdyttää geometrisia aluekyselyjä R * -puun tai jonkin muun geometrisen hakemistorakenteen avulla. .

Pohjimmiltaan DBSCAN-klusterit ydinkohdat joilla on enemmän kuin jonkin verran vähimmäismäärää naapureita tietyllä etäisyydellä Epsilon, heittää pois poikkeavina pisteinä, joilla ei ole naapureita Epsilonissa, ja lisää pisteet, jotka ovat Epsilonin sisällä, ydinpisteeseen kyseiseen klusteriin. DBSCAN on yksi yleisimmistä klusterointialgoritmeista, ja se voi löytää mielivaltaisesti muotoiltuja klustereita.

OPTICS-algoritmi

Pisteiden järjestys klusterirakenteen tunnistamiseksi (OPTICS) on algoritmi tiheyspohjaisten klustereiden löytämiseksi paikkatiedoista. OPTICS on samanlainen kuin DBSCAN, mutta käsittelee vaihtelevan pistetiheyden tapausta.

DBSCAN- ja OPTICS-ideoiden muunnelmia voidaan käyttää myös yksinkertaisiin poikkeamiin ja melun havaitsemiseen ja poistamiseen.

Piilevän muuttujan mallit

Piilevän muuttujan malli on tilastollinen malli, joka yhdistää havaittavien muuttujien sarjan piilevien (piilotettujen) muuttujien joukkoon. Piilevän muuttujan mallit ovat hyödyllisiä piilotettujen rakenteiden paljastamiseksi monimutkaisessa ja korkeaulotteisessa datassa.

Pääkomponenttianalyysi

Pääkomponenttianalyysi (PCA) on tilastollinen menettely, joka käyttää ortogonaalimuunnosta muuntaa joukko havaintoja mahdollisesti korreloivista numeerisista muuttujista joukoksi arvoja lineaarisesti korreloimattomia muuttujia, joita kutsutaan pääkomponenteiksi. Karl Pearson keksi PCA: n vuonna 1901. PCA voidaan saavuttaa hajottamalla ominaisarvon datakovarianttimatriisi (tai korrelaatio) matriisi tai yksikköarvohajoaminen (SVD) datamatriisissa, yleensä lähtötietojen normalisointivaiheen jälkeen.

Yksittäisen arvon hajoaminen

Yksittäisen arvon hajoaminen (SVD) on todellisen tai kompleksisen matriisin tekijä. Se on yleinen tekniikka lineaarisessa algebrassa, ja se lasketaan usein käyttämällä Householder-muunnoksia. SVD on yksi tapa ratkaista pääkomponentit. Vaikka SVD: n koodaus on täysin mahdollista tyhjästä, kaikissa lineaarisen algebran kirjastoissa on hyvät toteutukset.

Menetelmä hetkiä

Momenttimenetelmä käyttää havaitun datanäytteen hetkiä (keskiarvo, varianssi, vinous ja kurtosis) populaatioparametrien arvioimiseksi. Menetelmä on melko yksinkertainen, se voidaan usein laskea käsin ja yleensä saavuttaa maailmanlaajuinen lähentyminen. Matalien tilastojen tapauksessa momenttimenetelmä voi joskus tuottaa arvioita, jotka ovat parametriavaruuden ulkopuolella. Hetkien menetelmä on helppo tapa ratkaista seosmalleja (yllä).

Odotus-maksimointialgoritmit

Odotusten maksimoinnin (EM) algoritmi on iteratiivinen menetelmä, jolla löydetään parametrien maksimaalisen todennäköisyyden estimaatit malleissa, jotka riippuvat havaitsemattomista latenteista muuttujista. EM-iterointi vaihtelee odotusvaiheen (E) suorittamisen välillä, joka luo toiminnon parametrien nykyisen estimaatin avulla arvioidun log-todennäköisyyden odotukselle, ja maksimointivaiheen (M), joka laskee parametrit, jotka maksimoivat odotetun log-arvon. todennäköisyys löytyy E-askeleelta.

EM lähentyy maksimiin tai satulaan, mutta ei välttämättä maailmanlaajuiseen maksimiin. Voit lisätä mahdollisuutta löytää globaali maksimi toistamalla EM-menettely useista satunnaisista alkuperäisistä estimaateista parametreille tai käyttämällä momenttimenetelmää alkuperäisten estimaattien määrittämiseksi.

Gaussin seosmalliin (yllä) sovellettua EM: ää voidaan käyttää klusterianalyysiin.

Valvomatta neuroverkkoja

Neuroverkkoja koulutetaan yleensä merkittyihin tietoihin luokittelua tai regressiota varten, mikä on määritelmän mukaan valvottua koneoppimista. Heitä voidaan myös kouluttaa tunnistamattomiin tietoihin käyttämällä erilaisia ​​valvomattomia järjestelmiä.

Automaattikooderit

Autokooderit ovat hermoverkkoja, jotka on koulutettu niiden tuloihin. Pohjimmiltaan autokooderi on eteenpäin suuntautuva verkko, joka toimii koodekkinä, koodaamalla tulonsa tulokerroksesta yhteen tai useampaan piilotettuun kerrokseen pienemmällä hermosolujen määrällä, ja dekoodaa sitten koodatun esityksen ulostulokerrokseen, jonka topologia on tulo.

Harjoittelun aikana autokooderi käyttää taaksepäin etenemistä tulojen ja lähtöjen välisen eron minimoimiseksi. Autokoodereita on käytetty ulottuvuuden vähentämiseen, ominaisuuksien oppimiseen, melunvaimennukseen, poikkeavuuksien havaitsemiseen, kuvankäsittelyyn ja generatiivisten mallien oppimiseen.

Syvän uskon verkostot

Syvä uskomusverkot (DBN) ovat pinoja autokoodereita tai rajoitettuja Boltzmann-koneita (RBN), jotka voivat oppia rekonstruoimaan syötteensä. Kerrokset toimivat sitten ominaisuusilmaisimina. RBN: t koulutetaan yleensä käyttämällä kontrastieroja.

DBN: itä on käytetty kuvien, videosekvenssien ja liikkeen sieppaustietojen luomiseen ja tunnistamiseen.

Generatiiviset kontradiktoriset verkostot

Generatiiviset kontradiktoriset verkot (GAN) kouluttavat samanaikaisesti kahta verkkoa, generatiivisen mallin, joka sieppaa datan jakautumisen, ja erottelevan mallin, joka arvioi todennäköisyyden, että näyte tuli koulutustiedoista. Koulutuksella yritetään maksimoida todennäköisyys, että generaattori voi huijata erottelijaa.

GAN-verkkoilla voidaan luoda kuvia kuvitteellisista ihmisistä ja parantaa tähtitieteellisiä kuvia. GAN: ita on myös käytetty vanhojen videopelien tekstuurien suurentamiseen käytettäväksi pelien korkean resoluution versioissa. Valvomattoman oppimisen ulkopuolella GAN: itä on käytetty menestyksekkäästi pelien vahvistamiseen.

Itseorganisoituva kartta

Itseorganisoituva kartta (SOM) määrittelee järjestetyn kartoituksen annetuista tietokohteista säännölliseen, yleensä kaksiulotteiseen ruudukkoon. Kuhunkin ruudukon solmuun liittyy malli. Tietoalkio kartoitetaan solmuun, jonka malli on eniten samanlainen kuin tietoerä, ts. Sillä on pienin etäisyys tietyistä tiedoista joissakin mittareissa.

Sinun on toteutettava useita varotoimia varmistaaksesi, että kartoitukset ovat vakaita ja hyvin järjestettyjä. Kaikki kaupalliset toteutukset eivät noudata kaikkia varotoimia.

$config[zx-auto] not found$config[zx-overlay] not found