Spark

Uit de cursus: Basisbeginselen van data engineering

Gratis proefversie van 1 maand starten Aanschaffen voor mijn team

Spark

“

- [Instructeur] Het andere parallelle rekenraamwerk dat we zullen introduceren heet Spark. Spark verdeelt gegevensverwerkingstaken tussen clusters van computers. Maar waarom hadden we een tool als Spark nodig? Dus mapreduce gebaseerde systemen hebben de neiging om dure schijfschrijven tussen taken nodig te hebben. Spark probeert zoveel mogelijk verwerking in het geheugen te houden. In die zin was Spark een antwoord op de beperkingen van MapReduce, de schijfschrijven van MapReduce beperkten vooral een interactieve verkennende data-analyse, waarbij elke stap voortbouwt op een vorige stap. Spark is afkomstig van de Universiteit van Californië, waar het werd ontwikkeld in het AMPLab van Berkeley. En momenteel wordt het project onderhouden door de Apache Software Foundation. Een Spark is gebaseerd op een gegevensstructuur die veerkrachtige gedistribueerde gegevenssets of RDD's wordt genoemd. Nu, zonder in technische details te duiken, is dit een gegevensstructuur die gegevens onderhoudt…

Krijg toegang tot deze cursus met een gratis proefabonnement

Word vandaag lid en krijg toegang tot meer dan 25.300 cursussen geleid door branchedeskundigen.

Spark

Uit de cursus: Basisbeginselen van data engineering

Spark

Oefen terwijl u leert met oefenbestanden

Download cursussen en leer wanneer u onderweg bent

Inhoud

Begin vandaag met leren

Zakelijke onderwerpen verkennen

Creatieve onderwerpen verkennen

Technologische onderwerpen verkennen