Spark Flashcards

1
Q

Cuál es la principal ventaja de utilizar map-reduce?
* Permite el procesamiento distribuído
* Consume menos memoria
* Es más rápido
* No tengo que aprender Pandas

A

Permite el procesamiento distribuído

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Lazy en el contexto de Spark significa que…
* Solo se procesan los datos si el resultado no es nulo.
* Se realizan la menor cantidad de operaciones para obtener un resultado.
* Los datos no se procesan hasta que sea necesario.
* Solo resuelve las operaciones los días Lunes.

A

Los datos no se procesan hasta que sea necesario.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Las transformaciones en Spark son lazy.
True or false

A

True

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Las acciones en Spark se pueden encadenar para procesar nuestros datos.
True or false

A

False

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qué tipos de funciones deben utilizarse en un reduce?
* Funciones conmutativas
* Funciones conmutativas y asociativas
* Funciones conmutativas, asociativas y distributivas
* Solo funciones transnoche

A

Funciones conmutativas y asociativas

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

No es posible realizar un Map luego de un ReduceByKey.
True or false

A

False

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Con FlatMap puedo obtener varios registros a partir de cada registro de mi RDD.
True or False

A

True

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Usando la transformación Filter puedo quedarme con menos atributos en mis datos.
True or False

A

False

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Dado un RDD de ventas (fecha, cliente, monto). Quiero obtener la cantidad de ventas.
* rdd.count()
* rdd.reduceByKey(lambda x,y: x + y)
* rdd.map(lambda x: x[2]).reduce(lambda x,y: x + y)
* rdd.map(lambda x: 1).reduce(lambda x,y: x + y)

A

rdd.count()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Dado un RDD de ventas (fecha, cliente, monto). Quiero obtener la venta más chica.
* rdd.takeOrdered(1, lambda x: x[2])
* rdd.map(lambda x: x[2]).reduce(lambda x,y: x if x < y else y)
* rdd.reduceByKey(lambda x,y: x if x[2] < y[2] else y)
* rdd.reduce(lambda x,y: x if x[2] < y[2] else y)

A

rdd.reduce(lambda x,y: x if x[2] < y[2] else y)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly