H6: Distributed Storage Flashcards

(20 cards)

1
Q

Hoe werkt HDFS? (4 stappen)
Wat bij failure?

A
  • File -> Blokken
  • 3 kopien per blok
  • Deze blokken worden gestored op data nodes en verdeeld
  • Name Node trackt de blokken en DN’s

Bij Failure:
- Namenode geeft instructies aan data nodes om terug to kopieren tot elke weer 3x er is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

What betekent “moving the computation to the data”?

A

De data processing wordt op de datanode zelf gerund waar het op staat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat doet Mapping?
Hoe heet het mappen naar 0 elementen?
Hoe heet het mappen naar meerdere elementen?

A

Eerst in tokens gezet, daarna worden deze op nieuwe tokens gemapt.
- filtering
- Distribution

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat doet Reduce?

A

Key value pairs combinen van een input lijst into een enkele value

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Welke 3 fases heeft mapReduce?

A
  • Map
  • Shuffle
  • Reduce
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Waar gebeurt sorting in MapReduce?

A

Net voor Reduce

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat zijn de Hadoop Components? (4)

A
  • MapReduce Framework: implements mapReduce pattern
  • Cluster: host machines (nodes)
  • HDFS Federation: logical distributed storage
  • YARN structure: assigns resources (CPU, memory, …)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat zijn de 4 YARN componenten en wat doen ze?

A
  • Resource Manager: Assigns Cluster resources aan applications (1 per cluster)
  • Node Manager: Monitors Nodes (veel per cluster)
  • App Master: app (bv. mapReduce)
  • Container: task (bv. Map, reduce)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Wat is de YARN app lifecycle? (8)

A
  1. Client dient app in bij resource manager
  2. RM allocates AM container
  3. AM registreert bij RM
  4. AM requests van containers van NM
  5. AM tells NM to launch containers
  6. Application code is executed
  7. Client houd RM en AM in de gaten
  8. AM onregistreert bij RM
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wat zijn tekortkomingen van MapReduce? (4)

A
  • Je forced je data processing op map en reduce te gebruiken en kan geen andere opties zoals flatmap gebruiken.
  • Gebaseerd op acyclische data en dus niet goed voor ML
  • Werkt alleen met batches: video streaming dus ook niet goed
  • Gebruikt hard disk
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat doet Spark?

A

Gebruikt memory caching en dus niet de disk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is een Resilient Distributed Dataset?

A

Een verdeelde verzameling objecten die wordt gemaakt door Spark vanuit andere RDD’s en database items.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is een Dataframe?

A

Data in columns, worden gemaakt vanuit data door SparkSQL

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Verschillen RDD en Dataframes? (4)

A
  • RDD geeft een low level interface voor Spark
  • Dataframes hebben een schema
  • Dataframes worden gecached en geoptimaliseerd door Spark
  • Dataframes zijn gebouwd boven op RDD en zijn de core van Spark
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Link Spark en DAG?

A

De versies zijn nodes van de RDD’s, elke update / transformatie is een nieuwe node.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat is het verschil tussen Narrow en Wide transformations?

A

Zitten oftewel in dezelfde partitie van de RDD oftewel in verschillende. (bv. Map t.o.v. groupByKey)

17
Q

Wanneer Spark Gebruiken? (4)

A
  • Graaf Data
  • Video
  • Batch Data
  • Machine Learning
18
Q

Wanneer Spark niet gebruiken? (3)

A
  • Simpele usecases
  • Multi-user (moeten memory verdelen)
  • Weinig memory beschikbaar
19
Q

Waarvoor staat HDFS?

A

Hadoop Distributed File Storage

20
Q

Waarvoor staat YARN?

A

Yet Another Resource Negotiator