Aplicación de métodos multivariados en ciencia de datos Flashcards
Análisis de regresión, Análisis multivariado, Análisis de componentes principales (ACP), Regresión multivariada, Análisis discriminante, Análisis por conglomerados
¿Qué es la regresión lineal simple?
Es un modelo en el que se establece una relación lineal entre una variable dependiente Y y una variable independiente X
¿Cuál es la ecuación de la Regresión Lineal Simple?
- Y = b0 + b1 * X + e
Donde:
- Y es la variable dependiente.
- X es la variable independiente.
- b0 es la intersección o término independiente.
- b1 es la pendiente de la línea.
- e es el término de error.
¿Qué es la regresión lineal múltiple?
Es una extensión de la regresión lineal simple en la que se incluyen múltiples variables independientes, es decir: Y = b0 + b1 * X + b2 * X + b3 * X + … + e
¿Por qué es importante evitar la correlación entre variables independientes?
Porque si las variables independientes están correlacionadas, se genera multicolinealidad, lo que dificulta que el modelo determine el impacto real de cada variable en la variable dependiente.
¿Qué es la correlación de variables?
El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.
¿Qué es el ANOVA en regresión y para qué se usa?
El Análisis de Varianza (ANOVA) en regresión se usa para analizar si existe una relación significativa entre las variables independientes y la variable dependiente.
¿Qué estadístico se calcula en el análisis ANOVA?
Con ANOVA se calcula el estadístico F, que mide si la regresión explica una proporción significativa de la variabilidad en los datos.
¿Cómo se interpreta el estadístico F en ANOVA para regresión?
- Si el valor del p-value es menor a 0.05, significa que al menos una de las variables independientes tiene un efecto significativo en la variable dependiente.
- Si el p-valor es mayor a 0.05, no hay evidencia suficiente para afirmar que la regresión es útil para predecir Y.
¿Cómo se utiliza ANOVA en ciencia de datos?
ANOVA se usa para identificar las características más relevantes para un modelo, eliminando variables innecesarias y reduciendo la complejidad del modelo.
¿Cuál es la diferencia entre hipótesis nula y alternativa?
La hipótesis nula (H₀) es la afirmación que se asume verdadera hasta que se demuestre lo contrario, mientras que la hipótesis alternativa (H₁) es la afirmación que queremos probar.
¿Qué representan los grados de libertad en un ANOVA?
Representan el número de valores independientes disponibles para estimar la varianza en los datos.
¿Qué es una prueba de hipótesis en estadística?
Es un procedimiento que permite tomar decisiones o inferencias sobre una población con base en una muestra de datos.
¿Qué significa un p-valor menor a 0.05 en una prueba de hipótesis?
Indica que hay suficiente evidencia estadística para rechazar la hipótesis nula con un nivel de confianza del 95%.
¿Qué diferencia hay entre una prueba de hipótesis unilateral y bilateral?
Una prueba unilateral evalúa si una media es mayor o menor que un valor específico, mientras que una prueba bilateral evalúa si una media es significativamente diferente en cualquier dirección.
¿Cuándo se usa una prueba de hipótesis con distribución Z y cuándo con distribución t?
Se usa Z cuando la muestra es grande (n > 30) y se conoce la desviación estándar poblacional, y t cuando la muestra es pequeña o la desviación estándar es desconocida.
¿Qué es una distribución multivariada?
Es una generalización de una distribución de probabilidad para más de una variable aleatoria.
¿Cómo se interpreta la matriz de covarianza en una distribución normal multivariada?
Indica cómo se dispersan las variables en conjunto y qué tan correlacionadas están.
¿Cómo se interpreta un valor alto en la matriz de covarianza?
Indica que dos variables varían conjuntamente de manera significativa.
¿Cuál es la diferencia entre matriz de covarianza y matriz de correlación?
La correlación normaliza la varianza, ya que el valor va a ser entre 0 y 1
¿Cómo ayuda la reducción de dimensionalidad en la visualización de datos multivariados?
Permite representar datos con muchas variables en un espacio de menor dimensión, facilitando la interpretación y visualización.
¿Por qué es importante analizar la simetría y la kurtosis en un conjunto de datos?
La simetría ayuda a identificar si la distribución de los datos es equilibrada lo que puede indicar la presencia de valores atípicos.
La kurtosis permite detectar la presencia de valores extremos.
¿Cuáles son algunas técnicas comunes para visualizar datos multivariados?
- Histogramas para saber si hay simetría en los datos
- Graficas de dispersión para ver cómo están relacionadas las variables, sobre todo si hay relación lineal
¿Qué representa el vector de medias en una distribución multivariada?
Contiene las medias de cada variable en la distribución.
¿Cuáles son las principales ventajas de la reducción de dimensionalidad en el análisis de datos?
Permite visualizar los datos en 2D o 3D, mejora la eficiencia computacional al reducir la cantidad de datos y minimiza el almacenamiento necesario.