big data Flashcards
get a good grade or something (21 cards)
Livelli di streaming
Architetture streaming(architettura a livello generale, tipi di stream e tipi di formati a livello di messaggio, confronti, quali sono meglio a sec onda della situazione e perché)
Spark architettura e workflow
Data Platform (Data lake, datalakehouse, data fabric, data grid)
Sliding window e data driven window
principio di data locality
formati dei dati in hadoop (row-oriented vs column oriented) in particolare perché la compressione dei dati è migliore con questi formati rispetto dei formati standard
Evoluzione Architetture BD (SMP, MPP, Cluster)
Architetture, scale out, scale up
Definizione di big data e 4V
5 possibili cause di inconsistenza nei DB NoSql
Algoritmi di streaming count-distinct
dbnosql, perché vengono usati? vantaggi/svantaggi
Formati Hadoop/specifici big data. Deep in su formato parquet (domande di ragionamento tipo quando non vanno usati e perché)
HDFS
Spark SQL che differenze ci sono con RDD + ottimizzazione query
perché il blockpool non ha dimensioni infinite? hdfs nn e dn, meccanismi di backup
perché è locato in ram
Tipi di window in streaming
Cap e pacelc (anche qui domande di ragionamento/esempi)
Catalyst e perché per le query SQL abbiamo un ottimizzatore mentre per le query su RDD non ne abbiamo
Hdfs caratteristiche generali e architettura