Ohjelmointi

Apache Spark 3.0 lisää Nvidia-GPU-tuen koneoppimiseen

Apache Sparkista, muistin sisäisestä suurten tietojenkäsittelykehyksestä, tulee täysin GPU-nopeutettu pian julkaistavassa 3.0-inkarnaatiossa. Mikä parasta, tämän päivän Spark-sovellukset voivat hyödyntää GPU-kiihdytystä ilman muutoksia; kaikki nykyiset Spark-sovellusliittymät toimivat sellaisenaan.

Nvidian toimittamat GPU-kiihdytyskomponentit on suunniteltu täydentämään Spark-sovellusten kaikkia vaiheita, mukaan lukien ETL-toiminnot, koneoppimiskoulutus ja päättelypalvelut.

Nvidian Spark-julkaisut perustuvat GPU-nopeutettujen datatieteellisten kirjastojen RAPIDS-sarjaan. Monet RAPIDSin sisäisistä tietorakenteista, kuten datakehykset, täydentävät Sparkin omaa, mutta Sparkin saaminen käyttämään RAPIDSia natiivisti on kestänyt lähes neljä vuotta työtä.

Spark 3.0 -nopeudet eivät tule vain GPU-kiihdytyksestä. Spark 3.0 hyötyy myös suorituskyvystä minimoimalla tiedonsiirron näytönohjaimiin ja sieltä pois. Kun tietoja on siirrettävä klusterin yli, Unified Communication X -kehys siirtää sen suoraan GPU-muistilohkosta toiseen pienellä yleiskustannuksella.

Nvidian mukaan Databricks-alustalla toimivan Spark 3.0: n esikatseluversio tuotti seitsemänkertaisen suorituskyvyn parannuksen käytettäessä GPU-kiihdytystä, vaikka yksityiskohtia työmäärästä ja sen aineistosta ei ollut saatavilla.

Spark 3.0: n yleiselle saatavuudelle ei ole annettu kiinteää päivämäärää. Voit ladata esikatseluversioita Apache Spark -projektin verkkosivustolta.