Clase 6 - Selección de Atributos y Data Leakage Flashcards

(15 cards)

1
Q

¿Por qué decimos que, en general, reducir el número de variables mejora la performance?

A

Porque con más variables hay más probabilidad de variables redundantes o irrelevantes, además de mayor probabilidad de overfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Qué tipos de métodos de selección de atributos existen?

A
  • Embedded methods
  • Wrapper methods
  • Filter approaches
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Qué son los embedded methods?

A

Son los métodos de selección de atributos que ocurren de manera natural al entrenar cierto tipo de algoritmos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Cómo es la selección de atributos natural de un árbol de decisión?

En el contexto de selección/eliminación de atributos menos relevantes

A

Simplemente no usa una cierta variable para hacer un corte. Esa variable podría no estar, y el árbol resultante sería el mismo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cómo es el descarte de atributos natural de una regresión lineal?

A

Simplemente no usa una variable como parte de la fórmula final. Es decir, su β es 0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es Ridge Regression?

A

Ridge regression es un tipo de regresión lineal. Se caracteriza por usar una función de costos que penaliza coeficientes grandes con mayor o menor intensidad según el valor de λ.
Suelen estandarizarse las variables antes de correr Ridge Regression.
Para penalizar usa el cuadrado de los coeficientes. Como nunca hace que un coeficiente caiga a cero, no elimina variables.
No hace feature selection.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué es Lasso Regression?

A

Lasso Regression es un tipo de regresión lineal. Se caracteriza por usar una función de costos que penaliza altos valores de coeficientes, con mayor o menor intensidad según el valor de λ.
Para penalizar usa el módulo de los coeficientes, por lo que puede hacer que algunos coeficientes lleguen a cero, y así elimina variables.
Hace feature selection.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué es Elastic Net?

A

Elastic Net es un tipo de regresión lineal que combina Lasso y Ridge. Penaliza usando la suma de los cuadrados por un lambda, mas la suma de los módulos por otro lambda.
Combina los pros de ambos métodos, pero no tiene la debilidad de lasso respecto a una gran cantidad de variables correlacionadas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué es regularización?

A

Llamamos regularización al proceso de quitar flexibilidad a un modelo.
Al incorporar una penalización en una función de costo tal que reduce la flexibilidad del modelo, se le llama incorporar un componente de regularización.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Qué son los wrapper methods? ¿Cómo funcionan?

A

Los wrapper methods son métodos de selección de atributos que no suceden adentro de un modelo; el modelo está adentro del método.
Estos métodos funcionan generando distintos subsets de atributos y entrenando el modelo con cada uno de ellos y evaluando la performance en cada caso, ya sea con el grupo de training o validation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué tipos de wrapper methods existen?

A
  • Caso extremo o fuerza bruta: probar todas las combinaciones
  • Forward selection: en cada paso se fija cuál atributo se puede añadir para mejorar la performance. Greedy.
  • Backwards selection: en cada paso se fija cuál atributo se puede eliminar para mejorar la performance. Greedy.
  • Métodos híbridos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Qué son los filter methods? ¿Cómo funcionan?

A

Los filter methods son métodos de selección de atributos que no involucran entrenar modelos. En cambio usa tests estadísticos, como la correlación, para determinar qué atributos están más correlacionados con la variable a predecir y, por tanto, ayudan más a predecirla.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué es data leakage? ¿Qué involucra?

A

Decimos que hay data leakage cuando, de alguna forma y probablemente sin darse cuenta, alguien introduce datos del set de validación o test en el paso de entrenamiento.
Por ejemplo, si en una serie de tiempo intentamos predecir un valor de una fecha sabiendo datos anteriores Y posteriores.
Otro caso sería rellenar datos faltantes usando información del dataset completo, y después separar ese dataset en train, test y validation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Cómo se nota un caso de data leakage?

A

Es sutil, pero se da una sobre-estimación de la performance del modelo propuesto, similar a un caso de overfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Cuáles podrían ser algunos ejemplos de casos donde se da Data Leakage?

A

Se da en casos que no tenemos cuidado con los datos de una serie de tiempo, o si usamos el dataset completo (test, train, validation) para:
* Hacer selección de atributos
* Escalar o discretizar variables, si no podemos asumir que las distribuciones se mantienen estables
* Hacer bin-counting
* Hacer oversampling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly