Mitä ovat syväpetokset? AI, joka pettää

Deepfake on media - usein video, mutta joskus ääni -, joka on luotu, muutettu tai syntetisoitu syvällisen oppimisen avulla yrittääkseen harhaan jotkut katsojat tai kuuntelijat uskomaan väärään tapahtumaan tai väärään viestiin.

Alkuperäinen esimerkki deepfakeista (reddit user / u / deepfake) vaihtoi näyttelijän kasvot videoesittäjän ruumiille videossa - mikä oli tietysti täysin epäeettistä, vaikkakaan ei alun perin laitonta. Muut syväpetokset ovat muuttaneet sitä, mitä kuuluisat ihmiset sanoivat, tai kieltä, jota he puhuivat.

Deepfakes laajentaa video (tai elokuva) säveltämisen ideaa, jota on tehty vuosikymmenien ajan. Merkittävät videotaidot, aika ja varusteet menevät videon säveltämiseen; video-väärennökset vaativat paljon vähemmän taitoa, aikaa (olettaen, että sinulla on GPU: t) ja laitteita, vaikka ne eivät usein ole vakuuttavia huolellisille tarkkailijoille.

Kuinka luoda väärennöksiä

Alun perin syväpetokset tukeutuivat automaattikoodereihin, eräänlaiseen valvomattomaan hermoverkkoon, ja monet tekevät niin edelleen. Jotkut ihmiset ovat tarkentaneet tekniikkaa käyttämällä GAN-verkkoja (generatiiviset kontradiktoriset verkot). Muita koneoppimismenetelmiä on käytetty myös väärennöksissä, joskus yhdessä muiden kuin koneoppimismenetelmien kanssa, vaihtelevilla tuloksilla.

Automaattikooderit

Pohjimmiltaan kuvien syväväärennettyjen kasvojen automaattiset kooderit suorittavat kaksivaiheisen prosessin. Vaihe yksi on käyttää hermoverkkoa poimimaan kasvot lähdekuvasta ja koodaamaan se joukoksi ominaisuuksia ja mahdollisesti peite, tyypillisesti käyttämällä useita 2D-konvoluutiokerroksia, pari tiheää kerrosta ja softmax-kerros. Vaihe 2 on käyttää toista hermoverkkoa ominaisuuksien dekoodaamiseen, luodun kasvon skaalaamiseen, kasvojen kiertämiseen ja skaalaamiseen tarpeen mukaan ja skaalatun kasvon lisäämiseen toiseen kuvaan.

Autokooderin koulutus syväväärennettyjen kasvojen luomista varten vaatii paljon kuvia lähde- ja kohdepinnoista useista näkökulmista ja erilaisissa valaistusolosuhteissa. Ilman GPU: ta koulutus voi kestää viikkoja. GPU: iden kanssa se menee paljon nopeammin.

GANit

Generatiiviset kontradiktoriset verkot voivat tarkentaa autokoodereiden tuloksia esimerkiksi asettamalla kaksi hermoverkkoa toisiaan vastaan. Generatiivinen verkko yrittää luoda esimerkkejä, joilla on samat tilastotiedot kuin alkuperäisellä, kun taas erotteleva verkko yrittää havaita poikkeamat alkuperäisestä datan jakelusta.

GAN: ien kouluttaminen on aikaa vievä iteratiivinen tekniikka, joka nostaa huomattavasti laskenta-ajan kustannuksia autokoodereihin verrattuna. Tällä hetkellä GAN: t soveltuvat paremmin kuvitteellisten ihmisten realististen yksittäisten kuvakehysten (esim. StyleGAN) luomiseen kuin syväfake-videoiden luomiseen. Se voi muuttua, kun syvällisen oppimisen laitteisto nopeutuu.

Kuinka tunnistaa syväpetokset

Vuoden 2020 alkupuolella AWS: n, Facebookin, Microsoftin, AI: n Media Integrity Steering Committee -kumppanuuden ja tutkijoiden yhteenliittymä rakensi Deepfake Detection Challengen (DFDC), joka jatkui Kaggleilla neljä kuukautta.

Kilpailu sisälsi kaksi hyvin dokumentoitua prototyyppiratkaisua: esittelyn ja aloituspaketin. Selim Seferbekovin voittaneen ratkaisun kirjoitus on myös melko hyvä.

Ratkaisujen yksityiskohdat saavat silmäsi ristiin, jos et ole syvissä hermoverkoissa ja kuvankäsittelyssä. Pohjimmiltaan voittanut ratkaisu teki kehys kehykseltä kasvojentunnistuksen ja poimi SSIM (Structural Similarity) -hakemaskit. Ohjelmisto poimi havaitut kasvot plus 30 prosentin marginaalin ja käytti koodaamiseen (luokittelu) EfficientNet B7 -ohjelmaa, joka oli esikäsitelty ImageNetissä. Ratkaisu on nyt avoimen lähdekoodin.

Valitettavasti jopa voittanut ratkaisu pystyi saamaan vain noin kaksi kolmasosaa DFDC-testitietokannan syvistä väärennöksistä.

Deepfake-luonti- ja tunnistussovellukset

Yksi parhaista avoimen lähdekoodin videoiden deepfake-luomissovelluksista on tällä hetkellä Faceswap, joka perustuu alkuperäiseen deepfake-algoritmiin. Ars Technican kirjailija Tim Lee kesti kaksi viikkoa Faceswap-sovelluksen avulla luomaan syvän väärennöksen, joka vaihtoi komentaja-luutnantti Datan (Brent Spiner) kasvotStar Trek: seuraava sukupolvi videoksi, jossa Mark Zuckerberg todistaa ennen kongressia. Kuten syväfakeille tyypillistä, tulos ei läpäise haistamistestiä kenellekään, jolla on huomattavaa grafiikan hienostuneisuutta. Joten syväfakeiden uusin kehitys ei ole vieläkään kovin hyvä, lukuun ottamatta harvinaisia poikkeuksia, jotka riippuvat enemmän "taiteilijan" taidoista kuin tekniikasta.

Se on jonkin verran lohduttavaa, kun otetaan huomioon, että voittanut DFDC-tunnistusratkaisu ei myöskään ole kovin hyvä. Sillä välin Microsoft on ilmoittanut Microsoft Video Authenticatorista, mutta ei ole julkaissut tätä kirjoitusta. Microsoft sanoo, että Video Authenticator voi analysoida valokuvan tai videon saadakseen prosentuaalisen todennäköisyyden tai luottamuspisteet, että mediaa keinotekoisesti manipuloidaan.

Video Authenticator testattiin DFDC-aineistoa vastaan; Microsoft ei ole vielä ilmoittanut kuinka paljon parempi se on kuin Seferbekovin voittanut Kaggle-ratkaisu. Tekoälykilpailun sponsorille olisi tyypillistä rakentaa ja parantaa kilpailun voittavia ratkaisuja.

Facebook lupaa myös syväväärennöstunnistinta, mutta aikoo pitää lähdekoodin suljettuna. Seferbekovin kaltaisten avoimen lähdekoodin syväfake-ilmaisimien ongelmana on, että syväfake-sukupolven kehittäjät voivat käyttää ilmaisinta GAN: n erottelijana taatakseen, että väärennös kulkee kyseisen ilmaisimen läpi, mikä lopulta ruokkii tekoälykilpailua syväfake-generaattoreiden ja syväfake-ilmaisimien välillä.

Äänirintamalla Descript Overdub ja Adoben demonstroitu mutta vielä julkaisematon VoCo voivat tehdä tekstistä puheeksi lähes realistisen. Harjoittelet Overdubia noin 10 minuutin ajan luomaan synteettisen version omasta äänestäsi. Kun olet koulutettu, voit muokata ääniäänet tekstinä.

Liittyvä tekniikka on Google WaveNet. WaveNet-syntetisoidut äänet ovat realistisempia kuin tavalliset teksti puheeksi -äänet, vaikkakaan ei aivan luonnollisten äänien tasolla Googlen oman testauksen mukaan. Olet kuullut WaveNet-ääniä, jos olet käyttänyt äskettäin Google Assistantin, Google-haun tai Google Kääntäjän ääniulostuloa.

Deepfakes ja ei-yksimielinen pornografia

Kuten aiemmin mainitsin, alkuperäinen deepfake vaihtoi näyttelijän kasvot videoesittäjän ruumiille. Reddit on sittemmin kieltänyt sen isännän / r / deepfake -alihankkijan ja muut pornografiset väärennökset, koska suurin osa sisällöstä oli yksimielistä pornografiaa, joka on nyt laitonta, ainakin joillakin lainkäyttöalueilla.

Toinen osa Reddit for ei-pornografiset syväväärennökset ovat edelleen olemassa osoitteessa / r / SFWdeepfakes. Vaikka tuon Reddit-alueen kansalaiset väittävät tekevänsä hyvää työtä, joudut itse arvioimaan, onko Joe Bidenin kasvoilla, jotka on pahasti väärennetty Rod Serlingin ruumiiseen, mitään arvoa - ja onko mikään siellä olevista syväpetoksista nuuskatesti uskottavuudesta. Mielestäni jotkut ovat lähellä itsensä myymistä todellisina; useimpia voidaan hyväntekeväisesti kuvata raakaöljyiksi.

Kieltäminen / r / deepfake ei tietenkään poista yhteisymmärryksessä olevaa pornografiaa, jolla voi olla useita motiiveja, mukaan lukien kosto-pornoa, joka itsessään on rikos Yhdysvalloissa. Muita sivustoja, jotka ovat kieltäneet ei-yksimieliset syväväärennökset, ovat Gfycat, Twitter, Discord, Google ja Pornhub ja lopuksi (paljon jalan vetämisen jälkeen) Facebook ja Instagram.

Kaliforniassa henkilöillä, joihin kohdistuu ilman heidän suostumustaan tehtyä seksuaalista avointa sisältöä, on syy sisällön tekijää vastaan. Myös Kaliforniassa on kielletty julkisen virkaan hakevalle ehdokkaalle suunnattujen haitallisten syväfake-ääni- tai -kuvamateriaalien levittäminen 60 päivän kuluessa heidän valitsemisestaan. Kiina vaatii, että syväfakeet merkitään selvästi sellaisiksi.

Deepfakes politiikassa

Monet muut lainkäyttöalueet puute lakeja poliittisia väärennöksiä vastaan. Se voi olla huolestuttavaa, varsinkin kun poliittisten henkilöiden korkealaatuiset väärennökset tekevät siitä laajaa levitystä. Olisiko Nancy Pelosin syvä väärennös huonompi kuin perinteisesti hidastettu video Pelosista, jota manipuloitiin, jotta kuulostaisi siltä kuin hän pilkkaisi sanojaan? Se voisi olla, jos se tuotetaan hyvin. Katso esimerkiksi tämä CNN: n video, joka keskittyy vuoden 2020 presidenttikampanjan kannalta merkittäviin väärennöksiin.

Deepfakes tekosyynä

"Se on syvä väärennös" on myös mahdollinen tekosyy poliitikoille, joiden todelliset, kiusalliset videot ovat vuotaneet. Se tapahtui äskettäin (tai väitetysti tapahtui) Malesiassa, kun talousministeri hylkäsi homoseksuaaliteipin syvän väärennöksenä, vaikka toinen nauhassa näkyvä mies vannoi sen olevan totta.

Kääntöpuolelta Gabonin vaikeuksissa olevan presidentin Ali Bongon todennäköisen amatöörisyvennyksen jakelu oli osoitus myöhemmässä Bongoa vastaan suunnatussa sotilaallisessa vallankaappauksessa. Syväfake-video antoi armeijalle tiedon siitä, että jokin oli vialla, jopa enemmän kuin Bongon pitkäaikainen poissaolo tiedotusvälineistä.

Lisää syväfake-esimerkkejä

Äskettäinen syväfake-video All Star, vuoden 1999 Smash Mouth -klassikko, on esimerkki videoiden (tässä tapauksessa suosittujen elokuvien sekoittamisen) manipuloinnista huulten synkronoimiseksi. Luoja, YouTuben käyttäjä ontyj, toteaa, että "Wav2lipin testaaminen on viety pois ja nyt se on olemassa ..." Se on hauskaa, vaikkakaan ei vakuuttava. Siitä huolimatta se osoittaa, kuinka paljon parempaa huulten väärentämistä on saatu. Muutama vuosi sitten, luonnoton huuliliike oli tavallisesti väärennetyn videon kuollut lahja.

Se voi olla pahempaa. Katsokaa tätä syvää videota, jossa presidentti Obama on kohde ja Jordan Peele kuljettajana. Kuvittele nyt, että se ei sisältänyt mitään kontekstia, joka paljastaisi sen väärennökseksi, ja sisälsi sytyttävän kehotuksen toimia.

Oletko vielä kauhuissasi?