H6: Distributed Storage Flashcards
(20 cards)
Hoe werkt HDFS? (4 stappen)
Wat bij failure?
- File -> Blokken
- 3 kopien per blok
- Deze blokken worden gestored op data nodes en verdeeld
- Name Node trackt de blokken en DN’s
Bij Failure:
- Namenode geeft instructies aan data nodes om terug to kopieren tot elke weer 3x er is.
What betekent “moving the computation to the data”?
De data processing wordt op de datanode zelf gerund waar het op staat.
Wat doet Mapping?
Hoe heet het mappen naar 0 elementen?
Hoe heet het mappen naar meerdere elementen?
Eerst in tokens gezet, daarna worden deze op nieuwe tokens gemapt.
- filtering
- Distribution
Wat doet Reduce?
Key value pairs combinen van een input lijst into een enkele value
Welke 3 fases heeft mapReduce?
- Map
- Shuffle
- Reduce
Waar gebeurt sorting in MapReduce?
Net voor Reduce
Wat zijn de Hadoop Components? (4)
- MapReduce Framework: implements mapReduce pattern
- Cluster: host machines (nodes)
- HDFS Federation: logical distributed storage
- YARN structure: assigns resources (CPU, memory, …)
Wat zijn de 4 YARN componenten en wat doen ze?
- Resource Manager: Assigns Cluster resources aan applications (1 per cluster)
- Node Manager: Monitors Nodes (veel per cluster)
- App Master: app (bv. mapReduce)
- Container: task (bv. Map, reduce)
Wat is de YARN app lifecycle? (8)
- Client dient app in bij resource manager
- RM allocates AM container
- AM registreert bij RM
- AM requests van containers van NM
- AM tells NM to launch containers
- Application code is executed
- Client houd RM en AM in de gaten
- AM onregistreert bij RM
Wat zijn tekortkomingen van MapReduce? (4)
- Je forced je data processing op map en reduce te gebruiken en kan geen andere opties zoals flatmap gebruiken.
- Gebaseerd op acyclische data en dus niet goed voor ML
- Werkt alleen met batches: video streaming dus ook niet goed
- Gebruikt hard disk
Wat doet Spark?
Gebruikt memory caching en dus niet de disk.
Wat is een Resilient Distributed Dataset?
Een verdeelde verzameling objecten die wordt gemaakt door Spark vanuit andere RDD’s en database items.
Wat is een Dataframe?
Data in columns, worden gemaakt vanuit data door SparkSQL
Verschillen RDD en Dataframes? (4)
- RDD geeft een low level interface voor Spark
- Dataframes hebben een schema
- Dataframes worden gecached en geoptimaliseerd door Spark
- Dataframes zijn gebouwd boven op RDD en zijn de core van Spark
Link Spark en DAG?
De versies zijn nodes van de RDD’s, elke update / transformatie is een nieuwe node.
Wat is het verschil tussen Narrow en Wide transformations?
Zitten oftewel in dezelfde partitie van de RDD oftewel in verschillende. (bv. Map t.o.v. groupByKey)
Wanneer Spark Gebruiken? (4)
- Graaf Data
- Video
- Batch Data
- Machine Learning
Wanneer Spark niet gebruiken? (3)
- Simpele usecases
- Multi-user (moeten memory verdelen)
- Weinig memory beschikbaar
Waarvoor staat HDFS?
Hadoop Distributed File Storage
Waarvoor staat YARN?
Yet Another Resource Negotiator