Spark Flashcards
Cuál es la principal ventaja de utilizar map-reduce?
* Permite el procesamiento distribuído
* Consume menos memoria
* Es más rápido
* No tengo que aprender Pandas
Permite el procesamiento distribuído
Lazy en el contexto de Spark significa que…
* Solo se procesan los datos si el resultado no es nulo.
* Se realizan la menor cantidad de operaciones para obtener un resultado.
* Los datos no se procesan hasta que sea necesario.
* Solo resuelve las operaciones los días Lunes.
Los datos no se procesan hasta que sea necesario.
Las transformaciones en Spark son lazy.
True or false
True
Las acciones en Spark se pueden encadenar para procesar nuestros datos.
True or false
False
Qué tipos de funciones deben utilizarse en un reduce?
* Funciones conmutativas
* Funciones conmutativas y asociativas
* Funciones conmutativas, asociativas y distributivas
* Solo funciones transnoche
Funciones conmutativas y asociativas
No es posible realizar un Map luego de un ReduceByKey.
True or false
False
Con FlatMap puedo obtener varios registros a partir de cada registro de mi RDD.
True or False
True
Usando la transformación Filter puedo quedarme con menos atributos en mis datos.
True or False
False
Dado un RDD de ventas (fecha, cliente, monto). Quiero obtener la cantidad de ventas.
* rdd.count()
* rdd.reduceByKey(lambda x,y: x + y)
* rdd.map(lambda x: x[2]).reduce(lambda x,y: x + y)
* rdd.map(lambda x: 1).reduce(lambda x,y: x + y)
rdd.count()
Dado un RDD de ventas (fecha, cliente, monto). Quiero obtener la venta más chica.
* rdd.takeOrdered(1, lambda x: x[2])
* rdd.map(lambda x: x[2]).reduce(lambda x,y: x if x < y else y)
* rdd.reduceByKey(lambda x,y: x if x[2] < y[2] else y)
* rdd.reduce(lambda x,y: x if x[2] < y[2] else y)
rdd.reduce(lambda x,y: x if x[2] < y[2] else y)