Uit de cursus: Basisbeginselen van data engineering

Krijg toegang tot deze cursus met een gratis proefabonnement

Word vandaag lid en krijg toegang tot meer dan 25.300 cursussen geleid door branchedeskundigen.

Spark

Spark

- [Instructeur] Het andere parallelle rekenraamwerk dat we zullen introduceren heet Spark. Spark verdeelt gegevensverwerkingstaken tussen clusters van computers. Maar waarom hadden we een tool als Spark nodig? Dus mapreduce gebaseerde systemen hebben de neiging om dure schijfschrijven tussen taken nodig te hebben. Spark probeert zoveel mogelijk verwerking in het geheugen te houden. In die zin was Spark een antwoord op de beperkingen van MapReduce, de schijfschrijven van MapReduce beperkten vooral een interactieve verkennende data-analyse, waarbij elke stap voortbouwt op een vorige stap. Spark is afkomstig van de Universiteit van Californië, waar het werd ontwikkeld in het AMPLab van Berkeley. En momenteel wordt het project onderhouden door de Apache Software Foundation. Een Spark is gebaseerd op een gegevensstructuur die veerkrachtige gedistribueerde gegevenssets of RDD's wordt genoemd. Nu, zonder in technische details te duiken, is dit een gegevensstructuur die gegevens onderhoudt…

Inhoud