Clase 7 - Ensambles y Random Forest Flashcards

1
Q

Si tenemos un modelo con poca varianza y mucho sesgo (es decir, cada vez que lo entrenamos da resultados muy parecidos, pero con errores bastante altos). ¿Qué podemos decir de su nivel de flexibilidad, o cantidad de atributos?

A

Podemos decir que estamos viendo algo muy poco flexible, con muy pocas variables y tendencia al underfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Si tenemos un modelo con mucha varianza y poco sesgo (es decir, cada vez que lo entrenamos da resultados muy distintos, pero con errores bastante bajos). ¿Qué podemos decir de su nivel de flexibilidad, o cantidad de atributos?

A

Podemos decir que estamos viendo algo muy flexible, con demasiadas variables y tendencia al overfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Si comparamos un grupo de modelos, contra un grupo de promedios de modelos (es decir, un grupo de resultados de haber entrenado una vez, vs un grupo de resultados de haber entrenado varias veces y calculado el promedio). ¿Cuál se espera que tenga mayor varianza?

Tip: Esto es más algo de estadística que machine learning.

A

En el caso de los promedios, la variación va a ser menor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Cuál es el concepto base de bagging?

A

Podemos reducir sesgo y varianza si entrenamos varios modelos de varianza buena/alta y promediamos las probabilidades de sus predicciones.
Como sólo tenemos un train set, simulamos tener más usando boostrapping.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿A qué llamamos bootstrapping? ¿Cómo se hace?

A

Es un método para simular varios train set cuando tenemos uno solo. Funciona muestreando al azar observaciones del train set original, con reposición.
En general, cada train set bootstrappeado va a tener unos 2/3 de las observaciones.

Incluso puede aparecer el mismo dato más de una vez por cada train set b

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿A qué llamamos modelos de ensamble?

A

Decimos que un modelo es de ensamble cuando funciona en base a generar N modelos de cierto/s tipo/s, y combinar esas predicciones.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

En boostrapping, ¿qué es una OOB, o Out-of-bag observation?

A

Cada train set bootstrappeado tiene 2/3 de los datos presentes en el train set original. El tercio restante, que “no está en la bolsa”, son las observaciones oob.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué utilidad tienen las observaciones out of bag?

A

Sirven para estimar o predecir la performance del modelo. Dado que ese dato no está en el train set, podemos usarlo para testear.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué es random forest? ¿Cómo difiere de bagging?

A

Random Forest es una versión de bagging específica para árboles de decisión.
También usa bootstrapping pero, por cada modelo entrenado, usa un subset de atributos seleccionado al azar. Este set de atributos no sólo es distinto entre un árbol y otro, sino que cambia por cada split.
Esto se hace para lograr reducir más la varianza a través de hacer cada árbol más distinto que el otro.
El tamaño del subset de atributos es un hiperparámetro y no tiene un valor ideal definido. Igual se recomienda usar √p (siendo p la cantidad de atributos totales).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly