Clase 5 - Métricas de Performance Flashcards
¿Qué roles cumplen las métricas?
- Cuantifican la performance del modelo
- En algunos algoritmos, guían el aprendizaje o entrenamiento (árboles de regresión minimizan SSE, regresión logística minimiza cross-entropy)
¿Qué métricas podemos usar para medir la performance de un modelo de regresión?
- SSE: Sum of Square Errors
- MSE: Mean Squared Error
- RMSE: Root of Mean Squared Error
- MAE: Mean Absolute Error
- RMSLE: Root Mean Squared Logarithmic Error
- MAPE: Mean Average Percentage Error
¿Qué pros y contras tiene SSE? ¿Para qué tipo de modelos se usa?
- Pros: es muy simple, se calcula muy rápido
- Cons: es muy sensible a valores extremos. Si hay un outlier, el error pesa mucho más que el resto.
Se usa para modelos de regresión.
¿Qué pros y contras tiene MSE? ¿Para qué tipo de modelos se usa?
*Pros: podés obtener sesgo y varianza
*Contras: no es muy interpretable
Se usa para modelos de regresión.
¿Qué pros y contras tiene RMSE? ¿Para qué tipo de modelos se usa?
- Pros: podés obtener sesgo y varianza, es interpretable. Por esto, es muy usada.
- Cons: tenés que calcular una raíz cuadrada
Se usa para modelos de regresión.
¿Qué pros y contras tiene MAE? ¿Para qué tipo de modelos se usa?
- Pros: Los outliers no tienen un peso desmedido (si le pifiás en 4 unidades en un caso, es lo mismo que si le pifiás una unidad en 4 casos).
- Cons: Las computadoras calculan el valor absoluto como la raíz del cuadrado. Computacionalmente más caro que otros métodos.
Se usa para modelos de regresión.
¿Qué pros y contras tiene RMSLE? ¿Para qué tipo de modelos se usa?
- Pros: captura algo cercano al error relativo; es peor calcular 150 cuando era 100, que calcular 1050 cuando era 1000. Penaliza más si calculás de menos, que si calculás demás.
- Contras: Muy poco usado porque es alta fórmula.
Se usa para modelos de regresión.
¿Qué pros y contras tiene MAPE? ¿Para qué tipo de modelos se usa?
- Pros: Mide el error porcentual promedio entre los valores reales y los predichos. Es decir, dice en qué porcentaje le pifia el modelo aprox.
- Cons: No está definido cuando el valor a predecir es 0. Es sensible a valores reales pequeños. Puede subestimar las predicciones.
Se usa para modelos de regresión.
¿Qué es un threshold?
Un modelo de clasificación (binario) da como resultado una “probabilidad” de que la observación pertenezca a la categoría “positivo”. El threshold determina a partir de qué probabilidad decidimos clasificar esa observación como “positivo”.
¿Qué es una matriz de confusión? Cómo se llama cada parte, y qué representa?
Se llama matriz de confusión a una matriz 2x2 que compara los valores predichos con los valores reales.
* Valor en 0,0: True Positive. Cuántos casos daban positivo y fueron clasificados como positivos.
* Valor en 0,1: False Negative. Cuántos valores daban positivo y fueron clasificados como negativos.
* Valor en 1,0: False Positive. Cuántos valores daban negativo y fueron clasificados como positivos.
* Valor en 1,1: True Negative. Cuántos valores daban negativo y fueron clasificados como negativos.
¿Qué métricas podemos usar para medir la performance de un modelo de clasificación?
- Accuracy
- Precision
- Recall / True Positive Rate / Sensitivity
- Specificity / True Negative Rate
- F1-score
- Cross-entropy o Log-loss
- ROC-AUC
- Otras (Negative Predictive Value, False Positive Rate, False Negative Rate, Balanced Accuracy, Matthews Correlation Coefficient).
¿Qué mide Accuracy? ¿Cómo se calcula?
Accuracy mide cuántas predicciones fueron correctas, teniendo en cuenta todos los casos.
La fórmula es: (TP + TN) / (TP + TN + FP + FN). Es decir, casos correctos / todos los casos.
¿Qué pros y contras tiene Accuracy?
- Pros: fácil de entender y calcular
- Cons: es sensible a clases desbalanceadas
¿Qué mide Precision? ¿Cómo se calcula?
Precision mide la proporción de las predicciones positivas que fue correcta. En otras palabras: de todo lo que DIJE que es positivo. ¿Cuánto lo era realmente?
La fórmula es: TP / (TP + FP). Es decir, positivos que predije bien, sobre todos los que predije positivos.
¿Qué pros y contras tiene Precision?
- Pros: bueno para cuando queremos evitar falsos positivos
- Contras: no considera falsos negativos; puede que no tenga falsos positivos porque predice pocos positivos en general, y manda todos como negativo.
¿Qué mide Recall / TPR? ¿Cómo se calcula?
Recall mide la proporción de los positivos reales que fue clasificada como positivo. En otras palabras, de todos los positivos. ¿Cuántos predije correctamente?
La fórmula es: TP / (TP + FN). Es decir, positivos que predije bien sobre todos los positivos reales.
¿Qué pros y contras tiene Recall / TPR?
- Pros: Útil cuando los falsos negativos son graves
- Cons: Ignora falsos positivos. Si el modelo predice siempre positivo, igual puede ser alto.
¿Qué mide Specificity / TNR? ¿Cómo se calcula?
Specificity mide cuántos de los negativos reales fueron clasificados como negativos.
La fórmula es: TN / (TN + FP). Negativos que predije bien, sobre todos los que eran negativos.
¿Qué pros y contras tiene Specificity / TNR?
- Pros: útil para casos en que los falsos positivos son graves
- Cons: Ignora falsos negativos, no es útil si lo más importante es detectar positivos.
¿Qué mide F1-score? ¿Cómo se calcula?
F1-score mide el balance entre precision y recall.
La fórmula es: 2+[ (Precision*Recall) / (Precision+Recall) ]
¿Qué pros y contras tiene F1-score?
- Pros: Permite obtener un equilibrio entre precision y recall; tiene en cuenta tanto los False Positive como los False Negative.
- Contras: no tiene en cuenta los True Negative, así que puede no reflejar la performance total si hay más negativos. Un poco difícil de interpretar.
Estás entrenando un modelo, y la Log-loss (o Cross-entropy) te dio baja. ¿Esto es bueno o malo? ¿Qué tipo de modelo es?
Una Cross-entropy baja significa que las predicciones son buenas. Además, se usa para modelos de clasificación, ya sea binaria o multiclase.
¿Qué hace que log-loss sea diferente de otras métricas como f1-score, specificity, o recall?
Al contrario que las otras mencionadas, Log-loss usa las probabilidades en lugar de la predicción. Así penaliza más si la probabilidad era muy segura y se falla, premia más si la probabilidad era muy segura y se acierta, y es sensible a overfitting.
¿Cuáles son los ejes de una curva ROC?
El eje x es Specificity (ratio de falsos positivos), y el eje y es Sensitivity (ratio de verdaderos positivos).