mineria 2 Flashcards

(99 cards)

1
Q

¿Qué es PCA en pocas palabras?

A

Técnica que transforma un gran número de variables correlacionadas en un conjunto más pequeño, llamadas componentes principales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿Cuál es la motivación principal del PCA?

A

Análisis de datos masivos de alta dimensionalidad requiere una etapa previa de reducción de la dimensionalidad

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Cuál es el paso intermedio en el análisis de datos de alta dimensionalidad?

A

Paso intermedio para algoritmos de clustering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Dónde se aplica comúnmente el PCA?

A

En diversas aplicaciones de Inteligencia Artificial, como la visión por ordenador y la compresión de imágenes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

¿Cuáles son los pasos clave del PCA?

A

Estandarización, Matriz de Covarianza, Valores y Vectores Propios, Ordenación de Valores, Selección de Componentes, Transformación de la Matriz Original

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué es la estandarización en PCA?

A

Estandarizar el conjunto de datos para que todas las variables tengan la misma escala

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

¿Qué representa la matriz de covarianza en PCA?

A

La matriz que indica cómo las variables están relacionadas entre sí

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué son los valores y vectores propios?

A

Valores propios representan la varianza y vectores propios representan las direcciones de los componentes principales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué significa ordenar los valores propios?

A

Ordenar valores y vectores propios de mayor a menor para elegir los más importantes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Cómo se seleccionan los componentes en PCA?

A

Seleccionando los k valores propios más grandes para formar la matriz de vectores propios

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué es la transformación de la matriz original?

A

Usar la matriz de vectores propios para transformar la matriz original en un espacio de menor dimensión

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Cómo se usa PCA en minería de datos?

A

Para relación entre variables, interpretación y visualización, reducción de la dimensionalidad, análisis genético

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Qué permite PCA sobre la relación entre variables?

A

Revelar las relaciones entre las variables del conjunto de datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Qué utilidad tiene el PCA para visualización?

A

Ayuda a interpretar y visualizar datos de alta dimensionalidad

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Qué ventaja ofrece PCA en reducción de dimensionalidad?

A

Reduce el número de variables para facilitar el análisis posterior y mejorar la eficiencia

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Cómo se aplica PCA al análisis genético?

A

Se usa para visualizar distancia genética y relaciones entre poblaciones

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Qué ventajas tiene el PCA?

A

Mejora la comprensión de datos, acelera algoritmos y facilita la visualización

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

¿Cómo mejora PCA la comprensión de datos?

A

Eliminando características correlacionadas y reduciendo la dimensionalidad

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

¿Cómo acelera el PCA otros algoritmos?

A

Reduciendo la dimensionalidad, lo que mejora la eficiencia en conjuntos de datos grandes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

¿Cómo facilita el PCA la visualización?

A

Convirtiendo los datos de alta dimensionalidad en baja dimensionalidad

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué desventajas tiene el PCA?

A

Pérdida de información, solo capta correlaciones lineales, y no aplica bien en todos los casos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Por qué el PCA puede causar pérdida de información?

A

Elimina componentes que podrían ser importantes para el análisis

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Por qué es un problema que PCA solo detecte correlaciones lineales?

A

Ya que no capta relaciones no lineales entre variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿En qué casos no funciona bien PCA?

A

Si la media y la covarianza no son suficientes para describir los datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
¿Qué permite el PCA hacer con los datos?
Simplificar conjuntos complejos y resaltar variables relevantes
26
¿Qué es el análisis de componentes principales (ACP)?
Método útil para la reducción de dimensiones cuando hay muchas variables
27
¿Cuándo es útil aplicar ACP?
Cuando hay variables en la misma escala y altamente correlacionadas
28
¿Qué proporciona el ACP?
Combinaciones lineales ponderadas que retienen la mayor parte de la información
29
¿Para qué está diseñado el ACP?
Para su uso con variables numéricas; para categóricas se usan otros métodos
30
¿Qué es la matriz de covarianza?
Una matriz cuadrada que contiene la covarianza entre elementos de un vector
31
¿Qué es la matriz de covarianza en estadística?
Generalización natural de la varianza a dimensiones superiores
32
¿Qué es la covarianza?
Valor que indica la variación conjunta de dos variables respecto a sus medias
33
¿Qué es la varianza en probabilidad?
Esperanza del cuadrado de la desviación respecto a la media
34
¿Qué es el coeficiente de correlación de Pearson?
Medida de dependencia lineal entre dos variables aleatorias cuantitativas
35
La correlación de Pearson es ____ a la escala de medidas de las variables
Independiente
36
¿Qué indica el coeficiente de correlación de Pearson?
Grado de relación entre dos variables cuantitativas y continuas
37
¿Cuál es el objetivo del ACP?
Encontrar combinación lineal que capture la mayor parte de la información
38
¿Qué representa el desafío en reducción de dimensiones?
Eliminar variables, redistribuir información, hallar solución potencial
39
¿Qué es el primer componente principal?
Línea que minimiza la suma de las distancias perpendiculares al cuadrado
40
¿Qué hace print(pca.explained_variance_ratio_)?
Proporciona la varianza reasignada
41
¿Ventaja adicional de los componentes principales?
Coeficiente de correlación = 0, eliminando multicolinealidad
42
¿Qué es el coeficiente de correlación de Pearson?
Un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas
43
¿Qué afirmación describe mejor la covarianza?
Mide cómo varían juntas dos variables
44
¿Cuál de las siguientes características pertenece a la correlación y no a la covarianza?
Es estandarizada
45
¿Cuál de las siguientes afirmaciones es FALSA sobre la covarianza?
Varía entre -1 y 1
46
¿Qué valor máximo puede tener la covarianza entre dos variables?
Depende de la escala de las variables
47
¿Por qué se prefiere usar la correlación para comparar relaciones entre variables con diferentes unidades?
Porque está estandarizada y no depende de las unidades
48
¿Cuál es una diferencia clave entre covarianza y correlación?
La correlación indica fuerza y dirección; la covarianza solo muestra variación conjunta
49
¿Cuál es uno de los usos del Análisis de Componentes Principales (ACP) según la slide?
Comprender la estructura de los datos
50
¿Qué se examina para entender cómo contribuyen las variables a los componentes principales?
Los pesos de las variables
51
¿Qué representan los pesos en el contexto del ACP?
La contribución de cada variable a un componente principal
52
¿Por qué es importante normalizar los datos antes del ACP?
Porque algunas variables tienen diferentes escalas y dominarían el análisis
53
¿Qué es la normalización?
Reemplazar cada variable por una versión estandarizada con varianza unitaria
54
¿Cómo se logra la normalización?
Dividiendo cada variable por su desviación estándar
55
¿Cuál es el efecto de la normalización?
Dar a todas las variables la misma importancia en términos de variabilidad
56
¿Cuándo es necesario normalizar las variables?
Cuando las unidades son distintas o su escala no refleja su importancia
57
¿Cuándo no se debe normalizar una variable?
Si su unidad refleja su importancia y todas usan la misma unidad
58
¿Cuántos componentes se necesitan para explicar más del 90% de la variabilidad?
7
59
Usar solo ___ componentes, ___% de variabilidad, implica perder mucha información
2, 52%
60
¿Qué tipo de gráfico se recomienda cuando los datos se pueden reducir a dos dimensiones?
Gráfico de dispersión
61
¿Qué supuesto establece que la relación entre X e Y debe ser lineal?
Linealidad
62
¿Qué implica el supuesto de independencia en regresión lineal?
Que los errores no están correlacionados
63
¿Qué es homocedasticidad?
Que la varianza del error es constante
64
¿Qué significa que los residuos sean normales?
Que son simétricos y no tienen colas largas
65
¿Qué forma tiene la distribución normal de los residuos?
Campana simétrica
66
¿Qué ocurre si los residuos tienen un sesgo positivo?
Hay más valores a la derecha y colas largas
67
¿Qué se espera ver en un histograma con residuos con distribución normal?
Campana simétrica
68
¿Para qué sirve un modelo lineal en el análisis de salarios?
Estimar el salario según nivel educativo y experiencia
69
¿Qué aplicación del modelo lineal se usa para estudiar el crecimiento económico?
Predicción del PIB
70
¿Qué se estima en la valoración de activos con modelos lineales?
Precio de una acción
71
¿Qué problema surge al aplicar regresión lineal a variables binarias?
Las predicciones pueden estar fuera del intervalo [0, 1]
72
¿Cuál es el propósito del modelo Logit?
Modelar probabilidad con función logística
73
¿Qué función utiliza el modelo Probit?
Normal acumulada
74
¿Qué modelo usarías si crees que los errores siguen una distribución normal?
Probit
75
¿Qué indica si un histograma tiene muchos valores extremos?
Que los errores pueden tener colas largas
76
¿Qué tipo de datos pueden llevar a colas largas?
Ingresos personales con valores extremos
77
¿Por qué se prefieren modelos generalizados como Logit o Probit?
Porque permiten tratar variables dependientes binarias
78
¿Qué característica hace al modelo Logit más robusto que el Probit?
Su resistencia a valores extremos
79
¿Qué hace un modelo lineal generalizado?
Permite relaciones no lineales y distribuciones no normales
80
¿Qué análisis es adecuado cuando los hogares tienen consumos energéticos muy altos?
Modelos lineales generalizados
81
¿Qué representa la β₁ en regresión lineal simple?
Cambio esperado en Y por cada unidad de X
82
¿Cuál es la fórmula de la regresión lineal simple?
Y = β₀ + β₁X + ε
83
¿Cuál es la diferencia entre la varianza y la desviación estándar?
La desviación estándar es la raíz cuadrada de la varianza
84
¿Cuál es una medida de tendencia central?
Moda
85
¿Cuál es una medida de dispersión?
Rango
86
¿Qué mide la varianza?
La dispersión respecto a la media
87
¿Qué mide el rango?
Diferencia entre el valor máximo y mínimo
88
¿Qué tipo de distribución tiene una mayoría de valores cerca de la media?
Normal
89
¿Qué representa un sesgo positivo?
Valores extremos en el lado derecho
90
¿Qué representa un sesgo negativo?
Valores extremos en el lado izquierdo
91
¿Qué es un histograma?
Representación de la frecuencia de datos numéricos
92
¿Cuál es la base del análisis de datos?
Estadísticas descriptivas
93
¿Qué se utiliza para identificar relaciones entre variables en dos dimensiones?
Diagrama de dispersión
94
¿Qué propiedad define la linealidad en regresión lineal?
Que la relación entre X e Y sea lineal
95
¿Qué es la independencia en regresión lineal?
Que los errores no estén correlacionados
96
¿Qué significa que un modelo tenga homocedasticidad?
Que la varianza del error es constante
97
¿Cuál es una característica de residuos con distribución no normal?
Sesgo positivo con cola larga derecha
98
¿Cuál es una aplicación práctica de modelos lineales?
Todas las anteriores
99
¿Qué caracteriza a los errores en una distribución normal?
Simetría alrededor de cero