tema_2 Flashcards by Eduardo Morales

¿Qué es una Máquina de Vectores Soporte (SVM)?

Es un clasificador no paramétrico basado en funciones discriminantes lineales que busca encontrar un hiperplano óptimo para separar dos clases.

How well did you know this?

Not at all

Perfectly

¿Cómo se define el margen en un clasificador SVM?

Es la distancia entre el hiperplano de separación y los puntos más cercanos de cada clase, llamados vectores soporte.

How well did you know this?

Not at all

Perfectly

¿Qué problema soluciona el método Soft Margin en SVM?

Permite manejar datos que no son linealmente separables, introduciendo una variable de holgura para minimizar errores de predicción.

How well did you know this?

Not at all

Perfectly

¿Para qué se usa la técnica del kernel en SVM?

Se usa para transformar datos no separables linealmente en un espacio de mayor dimensión donde sí puedan separarse.

How well did you know this?

Not at all

Perfectly

¿Qué es el parámetro C en SVM?

Es un hiperparámetro que regula la penalización de los errores de clasificación y el ancho del margen.

How well did you know this?

Not at all

Perfectly

¿Cómo funciona el algoritmo Random Forest?

Combina múltiples árboles de decisión entrenados en subconjuntos aleatorios de datos para mejorar la precisión y reducir el sobreajuste.

How well did you know this?

Not at all

Perfectly

¿Cómo se diferencian Bagging y Boosting?

Bagging entrena clasificadores en paralelo con datos muestreados aleatoriamente, mientras que Boosting entrena secuencialmente, dando más peso a errores anteriores.

How well did you know this?

Not at all

Perfectly

¿Cuál es la principal ventaja de AdaBoost frente a otros algoritmos de clasificación?

Mejora la precisión combinando clasificadores débiles en una decisión final ponderada.

How well did you know this?

Not at all

Perfectly

¿SVM solo funciona con problemas de clasificación binaria? (Sí/No)

No, puede adaptarse a problemas multiclase con estrategias como One-vs-Rest.

How well did you know this?

Not at all

Perfectly

¿El hiperplano óptimo en SVM maximiza el margen entre clases? (Sí/No)

Sí.

How well did you know this?

Not at all

Perfectly

¿El parámetro C en SVM controla la rigidez del margen? (Sí/No)

Sí.

How well did you know this?

Not at all

Perfectly

¿El kernel lineal es el único disponible en SVM? (Sí/No)

No, también existen el polinomial, gaussiano y RBF, entre otros.

How well did you know this?

Not at all

Perfectly

¿El algoritmo Random Forest es un método de Bagging? (Sí/No)

Sí.

How well did you know this?

Not at all

Perfectly

¿AdaBoost entrena sus clasificadores en paralelo? (Sí/No)

No, lo hace de manera secuencial.

How well did you know this?

Not at all

Perfectly

¿Un valor alto de gamma en SVM con kernel RBF genera una frontera de decisión más curva? (Sí/No)

Sí.

How well did you know this?

Not at all

Perfectly

¿Bagging reduce la varianza de un modelo? (Sí/No)

Sí.

How well did you know this?

Not at all

Perfectly

En SVM, los puntos más cercanos al hiperplano se llaman ____.

vectores soporte.

How well did you know this?

Not at all

Perfectly

La función del kernel en SVM permite transformar los datos a un espacio de mayor ____.

dimensión.

How well did you know this?

Not at all

Perfectly

Un margen más ancho en SVM reduce el ____, pero puede aumentar el ____.

sobreajuste, error de clasificación.

How well did you know this?

Not at all

Perfectly

El algoritmo Random Forest usa múltiples ____ de decisión entrenados en subconjuntos de datos.

Study These Flashcards

árboles.

Boosting ajusta el peso de cada ____ en función de su precisión.

Study These Flashcards

clasificador débil.

AdaBoost pondera cada clasificador en función de su ____.

Study These Flashcards

error de predicción.

En Random Forest, el uso de diferentes subconjuntos de datos se conoce como ____.

Study These Flashcards

bootstrapping.

En Boosting, los clasificadores posteriores intentan corregir los errores de los ____.

Study These Flashcards

anteriores.

¿Cuál es el objetivo principal de SVM? A) Minimizar la distancia entre todas las clases B) Maximizar el margen entre clases C) Ajustar el hiperplano a la mayoría de los datos

B) Maximizar el margen entre clases

¿Qué técnica usa Random Forest para seleccionar variables? A) Selección manual B) Selección automática en cada árbol C) Solo usa todas las variables

B) Selección automática en cada árbol

¿Cómo se combinan las predicciones en Bagging? A) Promediando resultados B) Usando la técnica de Boosting C) Escogiendo el árbol más preciso

A) Promediando resultados

¿Cuál es la diferencia clave de Boosting respecto a Bagging? A) Usa un solo clasificador B) Entrena modelos secuencialmente C) Solo funciona con árboles de decisión

B) Entrena modelos secuencialmente

¿Qué problema soluciona el kernel en SVM? A) Datos no balanceados B) Separabilidad no lineal C) Sobreajuste en redes neuronales

B) Separabilidad no lineal

¿Qué parámetro controla la influencia de cada clasificador en AdaBoost? A) Gamma B) Peso C) Lambda

B) Peso

¿Qué tipo de modelos usa Random Forest? A) Redes neuronales B) Máquinas de vectores soporte C) Árboles de decisión

C) Árboles de decisión

¿Cuál es un posible inconveniente de Boosting? A) Genera modelos débiles B) Es sensible al ruido C) No funciona en datos grandes

B) Es sensible al ruido

Explica la diferencia entre Hard Margin y Soft Margin en SVM.

Hard Margin solo funciona con datos linealmente separables, mientras que Soft Margin permite errores en la clasificación.

¿Cómo se combinan los modelos en Bagging?

Se entrenan múltiples modelos en subconjuntos aleatorios y sus predicciones se promedian.

¿Qué ventajas ofrece Random Forest sobre un solo árbol de decisión?

Reduce el sobreajuste y mejora la generalización combinando múltiples árboles.

Explica la relación entre el parámetro C y el sobreajuste en SVM.

Un C alto minimiza errores pero puede sobreajustar el modelo; un C bajo aumenta el margen pero puede subajustar.

¿Cómo se evalúa la calidad de un modelo SVM?

Se usan métricas como la precisión, recall, F1-score y la curva ROC-AUC para medir el rendimiento del modelo.

¿Por qué Random Forest reduce la varianza en comparación con un solo árbol de decisión?

Porque combina múltiples árboles entrenados en subconjuntos de datos, promediando sus resultados y reduciendo el impacto de datos atípicos.

¿Qué diferencias existen entre el kernel lineal y el kernel RBF en SVM?

El kernel lineal es útil cuando los datos son separables linealmente, mientras que el kernel RBF permite modelar relaciones más complejas en espacios de mayor dimensión.

¿Por qué AdaBoost es más sensible al ruido que Bagging?

Porque asigna mayor peso a los errores en cada iteración, lo que puede amplificar la influencia de valores atípicos en la clasificación.

Explica cómo el parámetro gamma afecta el modelo SVM con kernel RBF.

Un gamma alto ajusta demasiado el modelo a los datos, mientras que un gamma bajo genera una frontera de decisión más suave.

¿Cómo afecta el número de árboles en Random Forest a su desempeño?

Un número mayor de árboles mejora la estabilidad del modelo pero aumenta el costo computacional.

Explica cómo se construye un modelo de Boosting paso a paso.

1) Se entrena un clasificador débil en los datos originales.

¿Cómo influye la selección de atributos en Random Forest?

Cada árbol se entrena con un subconjunto aleatorio de atributos, lo que mejora la diversidad de los árboles y reduce la correlación entre ellos.

Explica la diferencia entre regularización L1 y L2 en SVM.

L1 (Lasso) selecciona solo algunas características importantes, reduciendo otras a cero, mientras que L2 (Ridge) distribuye el peso entre todas las características sin eliminarlas completamente.

¿Cómo afecta el número de clasificadores débiles en AdaBoost al rendimiento del modelo?

Un número bajo puede no capturar bien los patrones, mientras que un número alto puede llevar al sobreajuste. Se debe encontrar un balance adecuado.

¿Por qué el parámetro C en SVM puede generar sobreajuste o subajuste?

Un C alto penaliza más los errores, forzando al modelo a ajustarse demasiado a los datos de entrenamiento (sobreajuste), mientras que un C bajo permite más errores, generando una mayor generalización (subajuste).

Explica la importancia del "majority voting" en Random Forest.

Permite que la predicción final se base en la decisión de la mayoría de los árboles, lo que ayuda a suavizar errores individuales y mejorar la precisión del modelo.

tema_2 Flashcards

(48 cards)