Untitled Deck Flashcards

(91 cards)

1
Q

¿Cuál es el objetivo del ACP?

A

Reducir la dimensión del conjunto de datos conservando la mayor parte de la información.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

¿En qué tipo de variables se utiliza el ACP?

A

En variables numéricas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

¿Qué se hace con las variables categóricas en lugar de ACP?

A

Se utiliza el análisis de correspondencias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

¿Qué mide la matriz de covarianza?

A

La variación conjunta de dos o más variables aleatorias.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

En teoría de probabilidad, la varianza de una variable aleatoria es una

A

medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

¿Qué mide el coeficiente de correlación de Pearson?

A

La fuerza y dirección de la relación lineal entre dos variables. siempre y cuando ambas sean cuantitativas y continuas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Diferencia entre covarianza y correlación

A

La covarianza no está estandarizada, mientras que la correlación varía entre -1 y 1 y es independiente de la escala.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

¿Qué porcentaje de la variabilidad total explican las calorías en el conjunto de datos de cereales?

A

66%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

¿Qué representa el primer componente principal (z1)?

A

La dirección de mayor variabilidad en los datos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

¿Qué condición cumplen los componentes principales entre sí?

A

Son ortogonales (correlación = 0).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

¿Qué hace la función pca.explained_variance_ratio_?

A

Indica qué porcentaje de la varianza total explica cada componente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

¿Por qué se deben normalizar los datos antes del ACP?

A

Porque algunas variables pueden tener escalas distintas que dominan la varianza total.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

¿Cómo se normaliza una variable?

A

Dividiendo cada valor entre su desviación estándar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

¿Cuántos componentes se requieren para explicar más del 90% de la variabilidad en los cereales?

A

Siete componentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

¿Qué medidas resumen la tendencia central?

A

Media, mediana y moda.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

¿Qué medidas resumen la dispersión?

A

Rango, varianza y desviación estándar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

¿Qué es la varianza?

A

El promedio de las desviaciones al cuadrado respecto a la media.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

¿Qué tipo de gráfica muestra la distribución de una variable?

A

Histograma.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

¿Qué indica un sesgo positivo en una distribución?

A

Valores extremos hacia la derecha.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

¿Qué representa el coeficiente β1 en una regresión lineal simple?

A

El cambio esperado en Y por cada unidad de cambio en X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

¿Qué mide el R² en una regresión?

A

El porcentaje de la variabilidad en Y explicada por X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

¿Qué mide la covarianza?

A

Cómo varían juntas dos variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

¿Qué mide el coeficiente de correlación?

A

La dirección y fuerza de la relación lineal entre dos variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

¿Qué se necesita cumplir para que la regresión sea válida?

A

Linealidad, independencia, homocedasticidad y normalidad de los residuos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
¿Qué es la homocedasticidad?
La varianza constante del error en todos los niveles de X.
26
¿Qué pasa si no se cumple la normalidad de los residuos?
El modelo puede estar sesgado y las inferencias serán incorrectas.
27
¿Cuándo se usan los modelos probit o logit?
Cuando la variable dependiente es binaria.
28
¿Qué diferencia a un modelo logit de un probit?
Logit usa la función logística; probit, la distribución normal estándar.
29
¿Por qué no usar OLS en variables binarias?
Porque puede predecir probabilidades fuera del rango [0,1].
30
¿Qué es una correlación espuria?
Una relación estadística sin causalidad real, causada por un tercer factor.
31
Ejemplo de correlación espuria clásico
Helado y ataques de tiburón (ambos aumentan en verano).
32
¿Qué métodos ayudan a identificar causalidad?
Experimentos aleatorizados y cuasi-experimentos.
33
¿Qué es un experimento aleatorizado?
Asignación aleatoria a grupos de tratamiento y control para medir efecto causal.
34
¿Qué es una variable instrumental (IV)?
Una variable externa que afecta el tratamiento pero no el resultado directamente.
35
¿Qué es diferencias en diferencias (DiD)?
Método que compara cambios en grupos tratados vs. no tratados antes y después de una intervención.
36
¿Qué es regresión discontinua (RDD)?
Método que compara individuos justo por encima y por debajo de un umbral.
37
¿Qué tipo de encuesta es Understanding Society?
Una encuesta longitudinal representativa del Reino Unido.
38
¿Qué años abarca la base de datos utilizada en el taller práctico?
De 2009 a 2018 (Olas 1 a 9).
39
¿Qué unidad de análisis tiene la base de datos?
Persona-Ola (una fila por persona por ola).
40
¿Qué variables se recomienda inspeccionar al inicio del análisis?
Ola, Sexo, Grupo étnico, Año de nacimiento, Situación laboral y Estado civil.
41
¿Qué estadísticas se deben obtener para todas las variables?
Media, desviación estándar, valor mínimo y máximo.
42
¿Qué hacer con ingresos negativos en la base de datos?
Recodificarlos a £1.
43
¿Qué herramienta se usa para agrupar ingresos en cuartiles?
Variable por cuantiles.
44
¿Por qué excluir ingresos mayores a £10,000 en un análisis visual?
Para evitar sesgo por valores atípicos extremos.
45
¿Qué relación se analiza en la regresión simple del taller?
Salud mental (SF-12 MCS) vs ingresos del hogar.
46
¿Qué grupo de edad se utiliza en la regresión práctica?
Personas de 40 años.
47
¿Qué transformación se hace a la variable de ingreso en el modelo ajustado?
Se toma el logaritmo del ingreso.
48
¿Qué se espera del coeficiente después de aplicar logaritmo al ingreso?
Una mejor interpretación en términos de elasticidad o cambio porcentual.
49
¿Qué se analiza con las variables de control en la regresión múltiple?
Cómo cambia la relación entre ingreso y salud mental al controlar otros factores.
50
¿Cómo se define 'alto ingreso' en este análisis?
Pertenecer a los dos cuartiles de ingreso más altos.
51
¿Qué se interpreta de un modelo probit con ingreso como variable explicativa?
La probabilidad de depresión clínica según el nivel de ingreso.
52
¿Por qué usar variables instrumentales en lugar de OLS?
Para corregir el sesgo por variables no observadas que afectan tanto ingreso como salud mental.
53
Ejemplo clásico de instrumento válido en educación
Fecha de nacimiento, que afecta escolaridad pero no ingreso directamente.
54
¿Qué es un cuasi-experimento?
Estrategia de análisis que busca aproximarse a un experimento cuando no es posible asignar aleatoriamente.
55
¿Qué método compara dos grupos antes y después de una intervención?
Diferencias en Diferencias (DiD).
56
¿Qué requiere el método DiD para ser válido?
Que ambos grupos sigan tendencias paralelas antes del tratamiento.
57
¿Qué es la regresión discontinua (RDD)?
Método que compara observaciones justo por encima y por debajo de un umbral.
58
¿Qué ventaja tienen los RCTs (experimentos aleatorizados)?
Eliminan el sesgo de selección y permiten inferencia causal confiable.
59
¿Qué limitaciones tienen los RCTs?
Son costosos, a veces poco éticos y de difícil generalización.
60
¿Para qué sirve el análisis de salarios en métodos cuantitativos?
Para estimar el ingreso según educación, experiencia e industria.
61
¿Cómo se puede predecir el PIB con modelos lineales?
Usando variables como consumo, inversión y gasto público.
62
¿Cómo se usa la regresión para valorar activos financieros?
Relacionando precios de acciones con tasas de interés, inflación y ganancias.
63
¿Qué representa la línea z1 en un gráfico de ACP?
La dirección en la que la varianza de los datos es máxima.
64
¿Qué representa el eje z2 en un ACP?
Es perpendicular a z1 y captura la segunda mayor cantidad de variabilidad, no correlacionada con z1.
65
¿Qué sucede si eliminamos el componente z2 en un ACP?
Conservamos el 86% de la variabilidad total.
66
¿Qué es un sesgo positivo en una distribución?
Hay valores extremos en el lado derecho; la media es mayor que la mediana.
67
¿Qué es un sesgo negativo en una distribución?
Hay valores extremos en el lado izquierdo; la media es menor que la mediana.
68
¿Qué gráfico se recomienda para visualizar una distribución?
Histograma.
69
¿Qué patrón visual indica heterocedasticidad?
Una forma de abanico en el gráfico de residuos.
70
¿Qué implica si los residuos no tienen forma de campana?
Que no cumplen el supuesto de normalidad, lo cual puede afectar las inferencias.
71
¿Por qué es importante la independencia de los errores en una regresión?
Porque errores correlacionados (como entre miembros de una familia) violan los supuestos del modelo.
72
¿Qué es un gráfico con mapa?
Es una visualización que combina datos con ubicaciones geográficas para mostrar patrones espaciales.
73
¿Qué es un mapa coroplético?
Un mapa que colorea regiones según los valores de una variable.
74
¿Qué muestra un mapa de puntos?
Ubicaciones específicas con marcadores.
75
¿Qué muestra un mapa de calor?
Densidad o intensidad de eventos en una zona.
76
¿Qué permiten los mapas interactivos?
Zoom, clic, y visualización de detalles adicionales.
77
¿Para qué se usan los mapas en minería de datos?
Para identificar patrones espaciales, comunicar resultados y detectar zonas prioritarias.
78
¿Qué es información geoespacial?
Datos con referencia a una ubicación en la Tierra, como coordenadas o códigos postales.
79
¿Qué es un GeoDataFrame?
Un DataFrame que incluye una columna con geometrías espaciales y un sistema de coordenadas (CRS).
80
¿Qué representa una geometría en datos espaciales?
Puede ser un punto, línea o polígono que indica una forma geográfica.
81
¿Qué es un CRS (Coordinate Reference System)?
Sistema que define cómo se interpretan las coordenadas.
82
¿Qué hace .contains() en análisis geoespacial?
Verifica si una geometría contiene otra.
83
¿Qué hace .intersects()?
Verifica si dos geometrías se cruzan.
84
¿Qué hace .within()?
Verifica si una geometría está dentro de otra.
85
¿Para qué sirve el análisis geoespacial?
Para combinar ubicación con otras variables y analizar relaciones espaciales.
86
Ejemplos de uso del análisis geoespacial
Segmentación geográfica, planificación urbana, análisis ambiental.
87
¿Qué es GeoJSON?
Un formato basado en JSON para representar datos geoespaciales.
88
¿Qué tipo de geometrías puede incluir un archivo GeoJSON?
Point, LineString, Polygon, MultiPoint, MultiLineString, MultiPolygon.
89
¿Qué es una FeatureCollection en GeoJSON?
Una colección de elementos geográficos, cada uno con sus propiedades.
90
¿Para qué se usa GeoJSON?
Para visualizar mapas, vincular datos con regiones, o hacer análisis espacial.
91
Ejemplos de lo que puede contener un GeoJSON
Límites de estados, zonas de riesgo, regiones censales, calles o ríos.