Ohjelmointi

Avoimen lähdekoodin haastaja ottaa käyttöön Google Kääntäjän

Tutkijat ovat julkaisseet avoimen lähdekoodin hermoverkkojärjestelmän kielikäännösten suorittamiseksi, mikä voi olla vaihtoehto omistetuille mustan laatikon käännöspalveluille.

Open Source Neural Machine Translation (OpenNMT) yhdistää Harvardin tutkijoiden työn pitkäaikaisen konekäännösohjelmistojen luojan Systranin työhön. Se toimii Torch-tieteellisessä laskentakehyksessä, jota Facebook käyttää myös koneoppimisprojekteissaan.

Ihannetapauksessa OpenNMT voisi toimia avoimena vaihtoehtona suljettujen lähdekoodien projekteille, kuten Google Translate, joka sai äskettäin merkittävän hermoverkon uudistuksen parantamaan käännöstensä laatua.

Mutta algoritmit eivät ole kovin osa; siinä on hyvät tietolähteet, jotka tukevat käännösprosessia - missä Google ja muut konekäännöstä palveluna tarjoavat pilvijätit saavat etunsa.

Puhuminen kielillä

OpenNMT, joka käyttää Lua-kieltä Torch-liitäntään, toimii kuten muutkin luokan tuotteet. Käyttäjä valmistelee tietokokonaisuuden, joka edustaa kahta käännettävää kieliparia - tyypillisesti samaa tekstiä molemmilla kielillä kuin ihmisen kääntäjä. Opittuaan OpenNMT: n näistä tiedoista käyttäjä voi sitten ottaa käyttöön saadun mallin ja käyttää sitä tekstien kääntämiseen.

Torch voi hyödyntää GPU-kiihdytystä, mikä tarkoittaa, että OpenNMT-mallien koulutusprosessia voidaan vauhdittaa paljon missä tahansa GPU: lla varustetussa järjestelmässä. Koulutusprosessi voi kuitenkin kestää kauan - "joskus useita viikkoja". Koulutusprosessi voidaan kuitenkin ottaa käyttöön ja tarvittaessa jatkaa tarvittaessa. Jos haluat käyttää koulutettua mallia suorittimessa GPU: n sijasta, sinun on muutettava malli toimimaan suorittimen tilassa. OpenNMT tarjoaa työkalun täsmälleen siihen.

Systranin toimittama live-demo väittää käyttävänsä OpenNMT: tä yhdessä Systranin oman työn kanssa. Yleisten kieliparien, kuten englanti / ranska, käännökset ovat melko tarkkoja. Pariskunnille, joissa on todennäköisesti käytettävissä pienempi joukko tekstejä tai joissa kieliparit eivät kartoita yhtä tarkasti toisiaan - esimerkiksi englantia / japania -, käännökset ovat hiukan viivoitettuja ja epätarkkoja. Eräässä japanilaisessa lauseessa Systran-demo sekoitti sanan "lokit" japaniksi sanalla "roikkuvat rullat"; Google Translate käänsi sen oikein.

Sanat, sanat, sanat

Tärkein elementti, jota OpenNMT ei vielä tarjoa, on ennalta koulutetut kielimallitiedot. Linkki GitHub-sivuston esimerkkimalleihin projektille tuottaa tällä hetkellä virheen. Oletettavasti ajoissa tämä sisältää näytetietoja, joita voidaan käyttää järjestelmän vertailuarvoon tai tuntemaan koulutus- ja käyttöönottoprosessi. Mutta se ei todennäköisesti sisällä tietoja, joita voidaan käyttää tuotantoympäristössä.

Tämä rajoittaa sitä, kuinka hyödyllistä OpenNMT on poissa laatikosta, koska mallidata on ainakin yhtä tärkeä konekääntämisen kannalta kuin itse algoritmit. Käännökset kieliparien välillä edellyttävät rinnakkaisia ​​ruumiita tai molempien kielten tekstejä, jotka ovat läheisesti sovitettuja toisiinsa lause- tai lause fraasitasolla, ja ne voidaan kouluttaa tuottamaan malleja OpenNMT: n kaltaisissa tuotteissa.

Monet korpukset ovat vapaasti saatavilla, mutta edellyttävät mukulakivien tekemistä käsin, jotta ne olisivat hyödyllisiä keskimääräiselle kehittäjälle. Toimittajilla, kuten Googlella - ja IBM: llä, jolla on kielen kääntäjäjärjestelmä Watsonilla - on etu, että he voivat helposti rakentaa yrityksiä muilla palveluillaan. Google voi automaattisesti hakea valtavia määriä jatkuvasti päivitettäviä kielitietoja hakukoneellaan.

Silti OpenNMT on varmasti hyödyllinen niille, jotka haluavat rakentaa uusia toimintoja OpenNMT: n mallinnus- ja koulutustunnusten päälle, eivätkä halua olla riippuvaisia ​​API: n takana olevasta algoritmista, kuten Google.

$config[zx-auto] not found$config[zx-overlay] not found