H6: Distributed Storage Flashcards

Question 1

Q

Hoe werkt HDFS? (4 stappen)
Wat bij failure?

Answer

A

File -> Blokken
3 kopien per blok
Deze blokken worden gestored op data nodes en verdeeld
Name Node trackt de blokken en DN’s

Bij Failure:
- Namenode geeft instructies aan data nodes om terug to kopieren tot elke weer 3x er is.

Question 2

Q

What betekent “moving the computation to the data”?

Answer

A

De data processing wordt op de datanode zelf gerund waar het op staat.

Question 3

Q

Wat doet Mapping?
Hoe heet het mappen naar 0 elementen?
Hoe heet het mappen naar meerdere elementen?

Answer

A

Eerst in tokens gezet, daarna worden deze op nieuwe tokens gemapt.
- filtering
- Distribution

Question 4

Q

Wat doet Reduce?

Answer

A

Key value pairs combinen van een input lijst into een enkele value

Question 5

Q

Welke 3 fases heeft mapReduce?

Answer

A

Map
Shuffle
Reduce

Question 6

Q

Waar gebeurt sorting in MapReduce?

Answer

A

Net voor Reduce

Question 7

Q

Wat zijn de Hadoop Components? (4)

Answer

A

MapReduce Framework: implements mapReduce pattern
Cluster: host machines (nodes)
HDFS Federation: logical distributed storage
YARN structure: assigns resources (CPU, memory, …)

Question 8

Q

Wat zijn de 4 YARN componenten en wat doen ze?

Answer

A

Resource Manager: Assigns Cluster resources aan applications (1 per cluster)
Node Manager: Monitors Nodes (veel per cluster)
App Master: app (bv. mapReduce)
Container: task (bv. Map, reduce)

Question 9

Q

Wat is de YARN app lifecycle? (8)

Answer

A

Client dient app in bij resource manager
RM allocates AM container
AM registreert bij RM
AM requests van containers van NM
AM tells NM to launch containers
Application code is executed
Client houd RM en AM in de gaten
AM onregistreert bij RM

Question 10

Q

Wat zijn tekortkomingen van MapReduce? (4)

Answer

A

Je forced je data processing op map en reduce te gebruiken en kan geen andere opties zoals flatmap gebruiken.
Gebaseerd op acyclische data en dus niet goed voor ML
Werkt alleen met batches: video streaming dus ook niet goed
Gebruikt hard disk

Question 11

Q

Wat doet Spark?

Answer

A

Gebruikt memory caching en dus niet de disk.

Question 12

Q

Wat is een Resilient Distributed Dataset?

Answer

A

Een verdeelde verzameling objecten die wordt gemaakt door Spark vanuit andere RDD’s en database items.

Question 13

Q

Wat is een Dataframe?

Answer

A

Data in columns, worden gemaakt vanuit data door SparkSQL

Question 14

Q

Verschillen RDD en Dataframes? (4)

Answer

A

RDD geeft een low level interface voor Spark
Dataframes hebben een schema
Dataframes worden gecached en geoptimaliseerd door Spark
Dataframes zijn gebouwd boven op RDD en zijn de core van Spark

Question 15

Q

Link Spark en DAG?

Answer

A

De versies zijn nodes van de RDD’s, elke update / transformatie is een nieuwe node.

Question 16

Q

Wat is het verschil tussen Narrow en Wide transformations?

Answer

Study These Flashcards

A

Zitten oftewel in dezelfde partitie van de RDD oftewel in verschillende. (bv. Map t.o.v. groupByKey)

Question 17

Q

Wanneer Spark Gebruiken? (4)

Answer

Study These Flashcards

A

Graaf Data
Video
Batch Data
Machine Learning

Question 18

Q

Wanneer Spark niet gebruiken? (3)

Answer

Study These Flashcards

A

Simpele usecases
Multi-user (moeten memory verdelen)
Weinig memory beschikbaar

Question 19

Q

Waarvoor staat HDFS?

Answer

Study These Flashcards

A

Hadoop Distributed File Storage

Question 20

Q

Waarvoor staat YARN?

Answer

Study These Flashcards

A

Yet Another Resource Negotiator

H6: Distributed Storage Flashcards

(20 cards)