19. A Big Data erőforrás- és feladat kezelése (Apache MapReduce, Apache YARN) Flashcards

1
Q

b. Mutassa be az Apache MapReduce programozási paradigmát, ismertesse előnyeit és hátrányait, valamint a használatát a WordCount példán keresztül!

A

-Párhuzamos programozási paradigma –> elosztott környezetben történik adatfeldolgozás
-Hadoop ökoszisztéma alapja
-Oszd meg és uralkodj elv –> adatfeldolgozási elv

Fő fázisok:
Map (kötelező) –> kulcs-érték párba rendezés
Reduce (opcionális) –> aggregálás

Teljes folyamat –> input, splitting, mapping, shuffling, reducing

Input –> fájl beolvasás
Splitting –> blokkok felosztása –> sor szinten
Mapping –> felosztott sorok –> egyessével feldolgozás, kulcs-érték pár generálás
Shuffle & Sort –> kulcs-érték párok alapján rendezés
Reducing –> aggregálás logika alapján

+párhuzamos feldolgozás, gyors, batch alapú
-Realtime nem tud működni, gyors lekérdezésekre NEM alkalmas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

c. Melyek az Apache YARN feladatai, szerepkörei, jellemzői, valamint mik az előnyei és hátrányai? Milyen erőforrásokat használ / kezel a feladati ellátásához?

A

YARN –> Yet Another Resource Manager
* Cél: Erőforrásmenedzselés –> erőforrások szétosztása

Feladatok:
* Erőforrás vezérlés
* Hiányzó/meghibásodott Node-ok kezelése
* Feladat ütemezés (beosztás sorrendje)

Szerepek:
* Resource manager (erőforrás menedzser) –> erőforrás vezérlő
* Node manager (Node vezérlő) –> monitorozás, heartbeat jeleket fogad
* Container –> entitások futtatása
* Application Master –> Összekötő a Resource és Node manager között

Ütemezése:
* FIFO (First In First Out)
* Kapacitás ütemezés –> Node-oknak mekkora kapacitása van (melyiknek oszthatja ki a kérést)

2 Ütemezés
Pure (Tiszta) ütemezés –> nem számít milyen állapotban vannak, oda küldi
Fair (odafigyelő) ütemezés –> Nézi, hogy elérhető-e

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

YARN Feladat ütemezés végrehajtás folyamata

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly