Miksi yritykset siirtyvät TensorFlow'sta PyTorchiksi

Koneoppimisen alaluokka, syvä oppiminen, käyttää monikerroksisia hermoverkkoja automatisoimaan historiallisesti vaikeita konetehtäviä - kuten kuvan tunnistusta, luonnollisen kielen käsittelyä (NLP) ja konekäännöstä - mittakaavassa.

TensorFlow, joka syntyi Googlesta vuonna 2015, on ollut suosituin avoimen lähdekoodin syväoppimiskehys sekä tutkimukselle että yritykselle. Mutta Facebookista vuonna 2016 syntynyt PyTorch on nopeasti kiinni, kiitos yhteisöllisten parannusten käytön helppoudessa ja käyttöönotossa laajemmalle käyttötapauksille.

PyTorchilla on erityisen voimakas hyväksyntä autoteollisuudessa - missä sitä voidaan soveltaa Teslan ja Lyftin tason 5 kaltaisiin autonomisiin pilottijärjestelmiin. Kehystä käytetään myös sisällön luokitteluun ja suosituksiin mediayrityksissä ja robottien tukemiseen. teollisissa sovelluksissa.

Joe Spisak, tekoälyn tuotejohtaja Facebook AI: ssä, kertoi, että vaikka hän onkin tyytyväinen PyTorch-yrityksen käyttöönoton lisääntymiseen, on vielä paljon tehtävää, jotta teollisuus otettaisiin käyttöön laajemmin.

"Seuraava käyttöönottoaalto tulee mahdollistamaan elinkaaren hallinta, MLOps ja Kubeflow -putket sekä sitä ympäröivä yhteisö", hän sanoi. "Matkan alkuvaiheessa oleville työkalut ovat melko hyvät. Aloittamiseen käytetään hallittuja palveluita ja joitain avointa lähdekoodia esimerkiksi SageMakerin kanssa AWS: ssä tai Azure ML: ssä."

Disney: Animoitujen kasvojen tunnistaminen elokuvissa

Vuodesta 2012 insinöörit ja datatieteilijät Disney-jättiläisessä ovat rakentaneet sitä, mitä yritys kutsuu Content Genomeksi, tietokaavioksi, joka yhdistää sisällön metatiedot tehokoneoppimiseen perustuviin haku- ja personointisovelluksiin Disneyn massiivisessa sisältökirjastossa.

"Tämä metatieto parantaa työkaluja, joita Disneyn tarinankertojat käyttävät sisällön tuottamiseen. innostaa iteratiivista luovuutta tarinankerronnassa; tehokäyttäjäkokemukset suositusmoottoreiden, digitaalisen navigoinnin ja sisällönetsinnän avulla; ja ota käyttöön liiketoimintatiedon hyödyntäminen ”, kirjoittivat Disney-kehittäjät Miquel Àngel Farré, Anthony Accardo, Marc Junyent, Monica Alfaro ja Cesc Guitart blogikirjoituksessa heinäkuussa.

Ennen kuin tämä voisi tapahtua, Disneyn oli investoitava laajaan sisällön merkintäprojektiin kääntyen datatieteilijöiden puoleen kouluttamaan automaattinen koodausputki käyttäen syvällisiä oppimismalleja kuvien tunnistamiseksi tunnistaakseen valtavat määrät kuvia ihmisistä, hahmoista ja paikoista.

Disney-insinöörit aloittivat kokeilemalla erilaisia kehyksiä, mukaan lukien TensorFlow, mutta päättivät konsolidoitua PyTorchin ympärille vuonna 2019. Insinöörit siirtyivät perinteisestä suuntautuneiden kaltevuuksien (HOG) ominaisuuskuvaajasta ja suosituista tukivektorikoneiden (SVM) mallista versioon kohteen havaitsemisarkkitehtuuri, joka on kopioitu konvoluutiohermoverkoilla (R-CNN). Jälkimmäinen oli suotuisampaa käsittelemään Disney-sisällössä yleisiä live-toiminnan, animaatioiden ja visuaalisten tehosteiden yhdistelmiä.

"Piirretyssä sarjassa on vaikea määritellä, mikä on kasvot, joten siirrymme syvällisiin oppimismenetelmiin esineiden ilmaisimen avulla ja käytimme siirto-oppimista", Disney-tutkimusinsinööri Monica Alfaro selitti. Muutaman tuhannen kasvojen käsittelyn jälkeen uusi malli tunnisti kasvot laajasti jo kaikissa kolmessa käyttötapauksessa. Se tuli tuotantoon tammikuussa 2020.

"Käytämme nyt vain yhtä mallia kolmen tyyppisille kasvoille, ja se on hienoa juosta Marvel-elokuvalle, kuten Avengers, jossa sen täytyy tunnistaa sekä Iron Man että Tony Stark, tai kaikki hahmot, joilla on naamio", hän sanoi.

Koska insinöörit käsittelevät niin suurta määrää videodataa kouluttaakseen ja ajettaessa mallia samanaikaisesti, he halusivat myös käyttää kalliita, tehokkaita GPU: ita siirtyessään tuotantoon.

Siirtyminen suorittimista antoi insinööreille mahdollisuuden kouluttaa ja päivittää malleja nopeammin. Se myös nopeutti tulosten jakamista Disneyn eri ryhmille ja lyhensi prosessiaikaa noin tunnista pitkälle elokuvalle, jolloin tulokset saatiin tänään viidestä kymmeneen minuuttiin.

"TensorFlow-objektitunnistin toi muistiin ongelmia tuotannossa ja sitä oli vaikea päivittää, kun taas PyTorchilla oli samat kohteiden ilmaisimet ja Faster-RCNN, joten aloimme käyttää PyTorchia kaikkeen", Alfaro kertoi.

Tämä siirtyminen kehyksestä toiseen oli yllättävän yksinkertainen myös suunnittelutiimille. "Vaihto [PyTorchiksi] oli helppoa, koska kaikki on sisäänrakennettua, liität vain joitain toimintoja ja voit aloittaa nopeasti, joten se ei ole jyrkkä oppimiskäyrä", Alfaro sanoi.

Kun he kohtasivat ongelmia tai pullonkauloja, vilkas PyTorch-yhteisö oli valmiina auttamaan.

Blue River Technology: Rikkakasvien torjunta-robotit

Blue River Technology on suunnitellut robotin, joka käyttää hämmästyttävää yhdistelmää digitaalisesta etsinnästä, integroiduista kameroista ja tietokonenäköstä rikkaruohojen ruiskuttamiseksi rikkakasvien torjunta-aineella samalla, kun viljely jätetään yksin melkein reaaliajassa, mikä auttaa maanviljelijöitä tehokkaammin säästämään kalliita ja mahdollisesti ympäristölle haitallisia rikkakasvien torjunta-aineita.

Kaliforniassa toimiva Sunnyvale-yritys kiinnitti raskaan kaluston valmistajan John Deeren huomion vuonna 2017, jolloin se hankittiin 305 miljoonalla dollarilla tavoitteena integroida tekniikka maatalouskoneisiinsa.

Blue River -tutkijat kokeilivat erilaisia syvällisiä oppimisen puitteita yrittäessään kouluttaa tietokonenäkömalleja rikkaruohojen ja viljelykasvien välisen eron tunnistamiseksi, mikä on valtava haaste, kun olet tekemisissä puuvillakasvien kanssa, jotka muistuttavat valitettavasti rikkaruohoja.

Korkeasti koulutetut agronomit laadittiin suorittamaan manuaalisia kuvamerkintöjä ja kouluttamaan konvoluutiohermoverkkoa (CNN) PyTorchin avulla "jokaisen kehyksen analysoimiseksi ja pikselitarkan kartan luomiseksi viljelykasvien ja rikkaruohojen sijainnista", tietotekniikan johtaja Chris Padwick visio ja koneoppiminen Blue River Technology -yrityksessä, kirjoitti blogikirjoituksessa elokuussa.

"Kuten muutkin yritykset, kokeilimme Caffea, TensorFlow'ta ja sitten PyTorchia", Padwick kertoi. ”Se toimii melko paljon meille laatikosta. Meillä ei ole ollut lainkaan vikailmoituksia tai estovirhettä. Hajautetulla laskennalla se todella loistaa ja sitä on helpompi käyttää kuin TensorFlow, mikä tietojen rinnakkaisuuden suhteen oli melko monimutkaista. "

Padwick sanoo, että PyTorch-kehyksen suosio ja yksinkertaisuus antaa hänelle edun uusien työntekijöiden nopeassa kasvussa. Tästä huolimatta Padwick haaveilee maailmasta, jossa “ihmiset kehittyvät missä tahansa. Jotkut pitävät Apache MXNetistä, Darknetistä tai Caffeista tutkimusta varten, mutta tuotannossa sen on oltava yhdellä kielellä, ja PyTorchilla on kaikki mitä tarvitsemme menestyäksemme. "

Datarock: Pilvipohjainen kuva-analyysi kaivosteollisuudelle

Geotieteilijöiden ryhmän perustama australialainen startup-yritys Datarock soveltaa tietokonenäkötekniikkaa kaivosteollisuuteen. Tarkemmin sanottuna sen syvälliset oppimismallit auttavat geologeja analysoimaan porausnäytekuvat aikaisempaa nopeammin.

Tyypillisesti geologi huokaisi näiden näytteiden yli senttimetriltä arvioidakseen mineralogiaa ja rakennetta, kun taas insinöörit etsivät fyysisiä piirteitä, kuten vikoja, murtumia ja kiven laatua. Tämä prosessi on sekä hidasta että altis inhimillisille virheille.

"Tietokone pystyy näkemään kiviä kuin insinööri näyttäisi", Brenton Crawford, Datarockin varatoimitusjohtaja. "Jos näet sen kuvassa, voimme kouluttaa mallin analysoimaan sitä yhtä hyvin kuin ihmisen."

Samoin kuin Blue River, Datarock käyttää tuotannossaan RCNN-mallin muunnosta, jossa tutkijat kääntyvät tietojen lisäämisen tekniikoiden keräämään tarpeeksi harjoittelutietoja alkuvaiheessa.

"Ensimmäisen löytöjakson jälkeen tiimi ryhtyi yhdistämään tekniikoita kuvankäsittelytyönkulun luomiseksi porakeskikuville. Tähän sisältyi sarja syvällisiä oppimismalleja, jotka pystyisivät käsittelemään raakakuvat jäsenneltyyn muotoon ja segmentoimaan tärkeät geologiset tiedot ”, tutkijat kirjoittivat blogikirjoituksessa.

Datarockin tekniikkaa käyttämällä asiakkaat voivat saada tuloksia puolessa tunnissa, toisin kuin viisi tai kuusi tuntia, joka tarvitaan havaintojen kirjaamiseen manuaalisesti. Tämä vapauttaa geologit työn raskaammista osista, Crawford sanoi. Kuitenkin "kun automatisoimme vaikeempia asioita, saamme jonkin verran palautetta ja meidän on selitettävä, että ne ovat osa tätä järjestelmää kouluttaaksemme malleja ja saadaksemme palautesilmukan kääntymään."

Kuten monet yritykset, jotka kouluttavat syvällisiä tietokonenäön malleja, Datarock aloitti TensorFlow-ohjelmalla, mutta siirtyi pian PyTorchiin.

"Alussa käytimme TensorFlow'ta, ja se kaatui meihin salaperäisistä syistä", kertoi Datarockin koneoppimisen johtaja Duy Tin Truong. "PyTorch ja Detecton2 julkaistiin tuolloin ja sopivat hyvin tarpeisiimme, joten joidenkin testien jälkeen huomasimme, että virheenkorjaus ja työskentely oli helpompaa ja muisti oli vähemmän, joten muuntasimme", hän sanoi.

Datarock ilmoitti myös nelinkertaisesta parannuksesta johtopäätöksissä TensorFlow'sta PyTorchiin ja Detectron2: een, kun malleja käytettiin GPU: lla - ja 3x CPU: lla.

Truong mainitsi vaihdon syynä PyTorchin kasvavan yhteisön, hyvin suunnitellun käyttöliittymän, helppokäyttöisyyden ja paremman virheenkorjauksen, ja totesi, että vaikka "ne ovatkin rajapinnan näkökulmasta melko erilaisia, jos tiedät TensorFlow'n, vaihtaminen on melko helppoa , varsinkin jos tunnet Pythonin. "

Disney: Animoitujen kasvojen tunnistaminen elokuvissa

Blue River Technology: Rikkakasvien torjunta-robotit

Datarock: Pilvipohjainen kuva-analyysi kaivosteollisuudelle

saatat myös pitää