Şu eğitimden: Veri Mühendisliği Esasları

Ücretsiz deneme süresi ile, bu eğitime erişin

Sektör uzmanları tarafından verilen 25.600 adetten fazla eğitime erişmek için hemen katılın.

Spark

Spark

- [Eğitmen] Tanıtacağımız diğer paralel hesaplama çerçevesinin adı Spark. Spark, veri işleme görevlerini bilgisayar kümeleri arasında dağıtır. Ama neden Spark gibi bir araca ihtiyacımız vardı? Bu nedenle MapReduce tabanlı sistemler, işler arasında pahalı disk yazmalarına ihtiyaç duyma eğilimindedir. Spark, bellekte mümkün olduğunca fazla işlem tutmaya çalışır. Bu anlamda, Spark, MapReduce'un sınırlamalarına bir cevaptı, MapReduce'un disk yazmaları özellikle her adımın bir önceki adımın üzerine inşa edildiği etkileşimli bir keşif veri analizini sınırlıyordu. Spark, Berkeley'deki AMPLab'da geliştirildiği Kaliforniya Üniversitesi'nden geliyor. Ve şu anda proje Apache Software Foundation tarafından sürdürülmektedir. Spark, dayanıklı dağıtılmış veri kümeleri veya RDD'ler adı verilen bir veri yapısına dayanır. Şimdi, tekniklere dalmadan, bu, birden fazla düğüm arasında dağıtılan verileri koruyan bir veri yapısıdır. Artık veri çerçevelerinin aksine, RDD'lerin adlandırılmış sütunları yoktur.…

İçerikler