Ohjelmointi

Oxford-projekti: Microsoft palvelee älypuhelinten sovellusliittymiä

Microsoft ilmoitti viime keväänä Project Oxfordista, joukosta SDK: ita ja sovellusliittymiä, joiden avulla kehittäjät voivat rakentaa "älykkäitä" sovelluksia tarvitsematta oppia koneoppimista. Oxfordin kasvo-, puhe- ja visio-sovellusliittymien avulla kehittäjät voivat luoda sovelluksia, jotka tunnistavat kasvojen piirteet, analysoivat kuvia tai suorittavat puheesta tekstiin- tai tekstistä puheeksi -käännöksiä.

Haastattelussa Suuren Paul Krillin toimittajan kanssa Microsoftin Ryan Galgon, Project Oxford -alustasta ja teknologioista vastaava vanhempi ohjelmapäällikkö, puhui Oxfordin tavoitteista korostaen sen potentiaalia esineiden internetissä.

: Kuka rakentaa Oxfordin sovelluksia? Kenelle Oxford on tarkoitettu?

Galgon: Meillä on ollut paljon ihmisiä sisäänkirjautumassa API-palveluihin. Tarkat numerot [eivät ole] sellaisia, mihin pääsen, mutta meillä on luotu paljon Azure-tilejä, paljon kirjautumisia Microsoft Azure Marketplacen kautta. Ihmiset potkivat palvelujen renkaita ja pyrkivät käyttämään palveluja entistä enemmän. Tällä hetkellä niitä kaikkia tarjotaan rajoitettuna ilmaisena tasona kuukausittain, ja pyrimme avaamaan tämän, kun olemme saaneet palautetta siitä, mitä muutoksia kehittäjät haluavat tehdä sovellusliittymiin ja malleihin.

Se on kaikki alustojen välinen, siinä mielessä, että se on joukko verkkopalveluja, joihin pääsee pääsääntöisesti REST-sovellusliittymän kautta. Kaikki, joka voi ottaa yhteyttä verkkosivustoon, voi soittaa näihin taustapalveluihin. Tarjoamme joukon SDK: ita, jotka käärivät nämä REST-puhelut ja helpottavat niiden käyttöä asiakkailla, kuten Android, Windows ja iOS. Kaikki, mikä voi soittaa HTTP-verkkopuhelun, voi soittaa palveluihin.

: Aiotko käyttää Oxfordia ensisijaisesti mobiililaitteilla tai Windows-työasemilla?

Galgon: Se on ensisijaisesti sekoitus todennäköisesti mobiililaitteita ja IoT-laitteita. Siinä mielessä, että kun ihmiset käyttävät työpöytiä, valtaosa käytöistä näen, että istut siellä, sinulla on näppäimistö ja hiiri ja tämäntyyppinen syöttö. Mutta kun sinulla on matkapuhelin, siepat valokuvia, videoita ja ääntä. On niin paljon helpompaa ja luonnollisempaa kaapata se pienellä laitteella. [Käytetään Oxford-tekniikkaa], jossa hallitseva syöttötapaus tulee olemaan luonnollinen data, lukujen lisäksi myös jonkinlainen visuaalinen tai äänitietotyyppi.

: Kerro meille lisää näistä sovellusliittymistä. Mitä kehittäjät voivat tehdä?

Galgon: Koska haluamme tavoittaa mahdollisimman monen kehittäjän, olemme todella tehneet paljon työtä tekemällä niistä erittäin helppokäyttöisiä, esimerkiksi kasvojentunnistuksessa tai tietokoneen näkemisessä, kuvien luokittelussa. Nämä asiat ovat kouluttaneet ja mallinnaneet, rakentaneet ihmiset, joilla on vuosien syvällinen tutkimuskokemus kyseisissä paikoissa, emmekä halua kehittäjien joutuvan tietokonenäön asiantuntijaksi. Olemme todella yrittäneet sanoa: "Katso, aiomme rakentaa parhaan mallin, jonka voimme rakentaa, ja asettaa sen sinulle saataville ja tehdä sen saataville kolmen koodirivin sisällä sinulle."

En voi puhua siitä, kuinka ulkoiset kumppanit etsivät Oxford-sovellusliittymien käyttöä, mutta tärkeimmät, joita Microsoft on työskennellyt ja joita ehkä olet nähnyt, ensimmäinen oli How-old.net-sivusto iän ennustamiseksi ja sukupuolet. Sitten meillä oli TwinsorNot.net, ja sille annettiin kaksi kuvaa, kuinka samanlaisia ​​nämä ihmiset ovat? Nämä olivat molemmat hyviä esimerkkejä Face-sovellusliittymistä. Viimeinen, joka käytti Face-sovellusliittymää ja joitain Speech-sovellusliittymiä, oli Windows 10 IoT -projekti, jossa kirjoitettiin muutama blogiviesti siitä, missä pystyit avaamaan oven kasvoillasi ja keskustelemaan oven kanssa - tai lukon, siinä tapauksessa. Mielestäni nämä ovat kolme esimerkkiä, joita Microsoft on työskennellyt osoittaakseen, että tässä on sovellustyyppi, joka voidaan rakentaa ja jakaa sovellukset muiden ihmisten kanssa.

: Mikä saa Oxfordin näihin REST-sovellusliittymiin?

Galgon: Ydin on koneella opittuja malleja, jotka olemme rakentaneet esimerkiksi puheesta tekstiin. Halusitpa käyttää sitä REST-sovellusliittymän kautta - tai puheesta tekstiin, voit käyttää sitä myös verkkopistorasiayhteyden kautta - tämän mallin taika tai voimakas asia, joka voi ottaa äänen jonkun puhuvan ja kielen kanssa että se on ja käännä se tekstimuodossa. Se on tärkein asia, joka saa Oxfordin valitsemaan kokonaisuutena.

: Miksi Project Oxford on erillinen Azure Machine Learning -projektista?

Galgon: Azure Machine Learningissa yksi pääkomponenteista on Azure Machine Learning Studio, johon ihmiset voivat tulla sisään tietojensa avulla, rakentaa kokeilun, kouluttaa oman mallinsa ja sitten isännöidä kyseiselle mallille. Oxfordin kanssa tämä on Microsoftin ennalta rakennettu malli, jota parannamme jatkossakin ja annamme ihmisten käyttää tätä mallia näiden REST-rajapintojen kautta.

: Minkä tyyppistä yritystoimintaa käytät Project Oxfordissa? Mikä on Oxfordin sovellusten liiketoimintatapa?

Galgon: Tällä hetkellä ei ole erityisiä kumppaneita, joista voin todella puhua, mutta mielestäni yksi tapauksista, joista olemme nähneet paljon kiinnostusta ja joissa henkilökohtaisesti näen paljon käyttötapauksia, on asioiden Internet - liitetyt laitteet. Kun katson tapaa, jolla ihmiset katsovat IoT-laitteiden rakentamista, sinulla ei ole näihin laitteisiin liittyvää näppäimistöä ja hiirtä ja usein jopa todellista näyttöä, mutta siellä on helppo kiinnittää mikrofoni ja se on melko helppoa kiinnittää kamera sinne. Jos yhdistät jotain kuten puhesovellusliittymät ja LUIS (Language Understanding Intelligent Service), laite, jolla on vain mikrofoni eikä muuta tapaa syöttää, voit nyt puhua sen kanssa, kertoa sille mitä haluat tehdä, kääntää sen joukko jäsenneltyjä toimintoja, ja hyödynnä sitä taustapäässä. Siellä luulen, että näemme paljon käyttötapauksia Oxfordin sovellusliittymille.

: Mainitsit iOS: n ja Androidin. Mikä on otettu käyttöön näillä alustoilla?

Galgon: Tekemällä API: t RESTful ja tarjoamalla nämä kääreet heille, olemme varmasti nähneet ihmisten lataavan kyseisiä kääreitä ja hyödyntämällä niitä. Mutta päivän lopussa sattuu olemaan "Tässä Java-kielen kääre verkkopuhelimen ympärillä", "Tässä on Objective-C-kääre verkkopuhelun ympärillä." Meillä ei ole paljon käsitystä siitä, mikä on tarkka laite, joka soittaa.

: Onko Oxford avoimen lähdekoodin?

Galgon: Emme suunnittele ydinmallien avointa hankintaa, eikä minulla ole siitä mitään jakaa, koska päivitämme malleja jatkuvasti. Tarjoamamme SDK: t, koska ne ovat käärittyinä näiden REST-puheluiden ympärille, ovat kyseisiä lähdekoodeja, jotka ovat ladattavissa kaikille verkkosivustolta tänään. Mutta jälleen kerran, se on piilotettu kääre asioihin, ja olemme itse nähneet ihmisiä MSDN-foorumeilla, jotka ovat toimittaneet koodinpätkiä eri kielillä sen ympärillä.

: Kuinka Microsoft aikoo ansaita rahaa Oxfordista?

Galgon: Kaikkien Marketplacen sovellusliittymät ovat tänään ilmaisia ​​rajoitetulle käytölle, joten saat 5000 API-tapahtumaa kuukaudessa. Se on ainoa nyt käytettävissä oleva suunnitelma. Tulevaisuudessa otamme käyttöön maksulliset suunnitelmat API: n käytön perusteella.

: Mikä on seuraava Oxfordille?

Galgon: Tästä eteenpäin on todella kolme aluetta. Ensimmäinen alue koskee nykyisten mallien päivittämistä ja parantamista. Saimme kehittäjiltä palautetta [siitä, miten] yksi sovellusliittymistä ei välttämättä toimi hyvin tietyntyyppisten kuvien kanssa. Parannamme ydinmallia siellä.

Yksi muista asioista, joita teemme, on se, että jatkamme mallien palauttamien ominaisuuksien määrän lisäämistä. Tänään Face API antaa sinulle ennustetun iän ja ennustetun sukupuolen. Olemme nähneet paljon pyyntöjä muun kuvan tunnistamiseksi.

Kolmas alue on se, että laajennamme olemassa olevien sovellusliittymien valikoimaa. Meillä on tänään neljä, mutta emme todellakaan ole valmiita. Emme usko, että koko tila, jonka haluamme tarjota, tai työkalut, jotka haluamme tarjota, on vielä täydellinen. Lisäämme jatkuvasti uusia sovellusliittymiä, jotka pystyvät käsittelemään erilaisia ​​tietotyyppejä tai voivat tarjota hyvin erilaisia ​​luonnontietojen ymmärtämistä kuin mitä annamme tänään.