Tema2 Flashcards
(48 cards)
¿Qué es el sobreajuste en el aprendizaje supervisado?
El sobreajuste ocurre cuando un modelo se ajusta demasiado a los datos de entrenamiento, logrando errores de entrenamiento bajos pero errores de generalización altos.
Esto significa que el modelo no generaliza bien a nuevos datos.
¿En qué consiste la validación cruzada?
La validación cruzada divide el conjunto de datos en K subconjuntos y realiza K iteraciones en las que usa diferentes subconjuntos para entrenamiento y prueba.
Esto ayuda a evaluar el rendimiento del modelo de manera más robusta.
¿Cuál es la diferencia entre exactitud y precisión en clasificación?
La exactitud mide la proporción total de predicciones correctas, mientras que la precisión mide la proporción de verdaderos positivos sobre todas las predicciones positivas.
¿Qué es la validación hold-out?
Es una estrategia de validación donde se divide el conjunto de datos en entrenamiento y prueba, usando porcentajes fijos como 70%-30%.
¿Qué representa la métrica MAE en regresión?
El MAE (Mean Absolute Error) es el promedio de los valores absolutos de las diferencias entre los valores reales y predichos.
¿Cómo se detecta el subajuste en un modelo?
Se detecta cuando los errores de entrenamiento y generalización son altos y similares, lo que indica que el modelo no está capturando bien la información de los datos.
¿Por qué es importante separar los datos de entrenamiento y prueba?
Para evaluar correctamente la capacidad de generalización del modelo y evitar el sobreajuste.
¿Qué es la validación anidada?
Es un procedimiento que combina validación cruzada y ajuste de parámetros para seleccionar el mejor modelo sin sesgar los resultados.
En la validación cruzada, se usa siempre el mismo conjunto de datos para entrenamiento y prueba. (V/F)
Falso. Se crean K subconjuntos diferentes en cada iteración.
Un modelo con sobreajuste generaliza bien en datos nuevos. (V/F)
Falso. El modelo se ajusta demasiado a los datos de entrenamiento y falla con datos nuevos.
La validación hold-out siempre usa un 80%-20% en la división de datos. (V/F)
Falso. Se pueden usar otras proporciones como 70%-30% o 66%-34%.
El MAE y el RMSE son métricas utilizadas en problemas de regresión. (V/F)
Verdadero. Ambas métricas miden la diferencia entre los valores reales y los predichos.
La precisión en clasificación es la proporción de verdaderos positivos sobre el total de positivos predichos. (V/F)
Verdadero. Mide qué tan confiables son las predicciones positivas.
Un modelo con alta sensibilidad detecta correctamente la mayoría de los casos positivos. (V/F)
Verdadero. La sensibilidad mide la capacidad del modelo para identificar correctamente los casos positivos.
En una validación cruzada con K=5, cada bolsa se usa solo una vez como conjunto de test. (V/F)
Verdadero. Cada bolsa es usada una vez como test y el resto como entrenamiento.
La validación anidada ayuda a evitar el sobreajuste en la selección de hiperparámetros. (V/F)
Verdadero. Utiliza una validación interna para encontrar los mejores parámetros antes de probar en el conjunto de test.
El sobreajuste ocurre cuando el modelo se ajusta demasiado a los datos de ___________.
entrenamiento.
La validación ___________ divide los datos en K subconjuntos y los usa en diferentes iteraciones.
cruzada.
La ___________ mide la proporción de aciertos sobre el total de predicciones en clasificación.
exactitud.
En regresión, el ___________ mide la media de los errores absolutos entre valores reales y predichos.
MAE.
La validación ___________ se basa en dividir los datos en conjuntos de entrenamiento y prueba.
hold-out.
En problemas de clasificación, una matriz de ___________ organiza los aciertos y errores del modelo.
confusión.
La ___________ mide la proporción de verdaderos positivos sobre el total de casos positivos reales.
sensibilidad.
La validación ___________ usa validación interna para el ajuste de parámetros antes de evaluar el modelo final.
anidada.