Ohjelmointi

"Google-haku steroideilla" tuo pimeän verkon valoon

Valtion virasto, joka toi meille Internetin, on nyt kehittänyt tehokkaan uuden hakukoneen, joka valaisee niin sanotun syväverkon sisältöä.

Defence Advanced Research Projects Agency (DARPA) aloitti työn Memex Deep Web -hakukoneen parissa vuosi sitten, ja tällä viikolla julkisti työkalunsa Scientific Americanille ja "60 Minutes".

Memex, jota kehittää 17 erilaista urakoitsijaryhmää, pyrkii rakentamaan paremman kartan Internet-sisällöstä ja paljastamaan verkkotiedoissa olevia malleja, jotka voivat auttaa lainvalvontaviranomaisia ​​ja muita. Varhaisissa kokeissa on keskitytty ihmiskauppiaiden liikkeiden kartoittamiseen, mutta tekniikkaa voitaisiin jonain päivänä soveltaa tutkintatoimiin, kuten terrorismin torjuntaan, kadonneisiin henkilöihin, tautien torjuntaan ja katastrofiapuihin.

DARPA: n tietoinnovaatiotoimiston johtaja Dan Kaufman sanoo, että Memexillä on kyse näkymättömyyden tekemisestä. "Internet on paljon, paljon suurempi kuin ihmiset ajattelevat", DARPA-ohjelman johtaja Chris White kertoi "60 minuuttia". "Joidenkin arvioiden mukaan Google, Microsoft Bing ja Yahoo antavat meille pääsyn vain noin viiteen prosenttiin verkon sisällöstä."

Google ja Bing tuottavat tuloksia suosion ja sijoituksen perusteella, mutta Memex hakee sisältöä, jota kaupalliset hakukoneet eivät yleensä huomioi, kuten strukturoimattomia tietoja, linkittämätöntä sisältöä, väliaikaisia ​​sivuja, jotka poistetaan ennen kuin kaupalliset hakukoneet voivat indeksoida niitä, ja chat-foorumeita. Säännölliset hakukoneet jättävät huomiotta tämän syvällisen verkkodatan, koska verkkomainostajat - missä selainyhtiöt ansaitsevat rahaa - eivät ole kiinnostuneita siitä.

Memex myös automatisoi mekanismin indeksoida pimeää eli anonyymia verkkoa, jossa rikolliset harjoittavat liiketoimintaa. Nämä piilotetut palvelusivut, joihin pääsee vain nimettömien TOR-selainten kautta, toimivat yleensä lainvalvontaviranomaisten tutkan alla, jotka myyvät laittomia huumeita ja muuta salakuljetusta. Missä kerran ajateltiin, että pimeä verkkotoiminta koostui noin 1000 sivusta, White kertoi Scientific Americanille, että pimeitä verkkosivuja voi olla välillä 30 000 - 40 000.

Tähän asti oli vaikea tarkastella näitä sivustoja millään systeemisellä tavalla. Mutta Memex - jota Manhattan DA Cyrus Vance Jr. kutsuu "Google-hauksi steroideilla" - ei vain indeksoi niiden sisältöä, vaan analysoi sen paljastaakseen piilotetut suhteet, joista voi olla hyötyä lainvalvonnalle.

DARPA: n hakutyökalut otettiin käyttöön viime vuonna lainvalvontaviranomaisten valitsemiseksi, mukaan lukien Manhattanin uusi ihmiskaupan vastainen yksikkö. Memexiä käytetään nyt jokaisessa ihmiskauppatapauksessa, jolla se on ollut, ja sillä on ollut merkitystä vähintään 20 sukupuolikauppaa koskevan tutkimuksen laatimisessa. Ahdettu web-indeksoija pystyy tunnistamaan suhteet eri tietojen välillä ja tuottaa datakarttoja, jotka auttavat tutkijoita havaitsemaan mallit.

"60 minuuttia" -esittelyssä White osoitti, kuinka Memex pystyy seuraamaan ihmiskauppiaiden liikettä seksimainontaan liittyvien verkkomainosten perusteella. "Joskus se on IP-osoitteen funktio, mutta joskus se on mainoksessa olevan puhelinnumeron tai osoitteen tai mainoksen lähettäneen laitteen sijainti", White sanoi. "Joskus on muita esineitä, jotka vaikuttavat sijaintiin."

White korosti, että Memex ei turvaudu hakkerointiin saadakseen tietoja. "Jos jokin on suojattu salasanalla, se ei ole julkista sisältöä, eikä Memex etsi sitä", hän kertoi Scientific Americanille. "Emme halunneet hämärtää tätä työtä tarpeettomasti vetämällä piiskauksen ja valvonnan haavaa" - herkkä aihe Edward Snowdenin NSA: n paljastusten jälkeen.

Memex sai nimensä (yhdistelmä "muistista" ja "hakemistosta") ja inspiraation hypoteettisesta laitteesta, jonka Vannevar Bush kuvaili vuonna 1945 ja joka edeltää tietokoneiden, Internetin ja muiden merkittävien IT-kehitysten kehittymistä seuraavien 70 vuoden aikana. Nyt DARPA ja Memex näyttävät tuovan meidät askeleen lähemmäs Philip Dickin futuristista poliisiosastoa, joka on kuvattu "vähemmistöraportissa".

Uusi testikierros, joka alkaa muutaman viikon kuluttua, sisältää liittovaltion ja piirin syyttäjät, alueelliset ja kansalliset lainvalvontaviranomaiset sekä useita kansalaisjärjestöjä. Scientific American -raportin mukaan sen tavoitteena on "testata uusia kuvahakuominaisuuksia, jotka voivat analysoida valokuvia, vaikka osia, jotka voivat auttaa tutkijoita - mukaan lukien ihmiskauppiaiden kasvot tai taustalla oleva televisioruutu - hämmentävät".

Keksimällä parempia tapoja olla vuorovaikutuksessa suurempien lähteiden joukosta kerättävän tiedon kanssa ja "esittelemällä, haluamme parantaa kaikkien hakua. Helppokäyttöisyys muille kuin ohjelmoijille on välttämätöntä", White sanoi.