Análisis de ciencia de datos Flashcards
Introducción a la ciencia de datos, Adquisición y preparación de datos, Modelación y visualización (67 cards)
¿Qué es el análisis de datos descriptivo?
Ahonda en los datos pasados para averiguar información sobre lo acontecido en el histórico. Responde: “¿Qué ha pasado?”.
¿Qué es el análisis de datos predictivo?
Utilizan estadísticas y técnicas de modelado para hacer predicciones sobre resultados y rendimiento futuros. Examina los patrones de datos actuales e históricos para determinar si es probable que esos patrones vuelvan a surgir. Responde: “¿Qué va a pasar?”.
¿Qué es el análisis de datos prescriptivo?
Toma en cuenta la información sobre posibles situaciones o escenarios, los recursos disponibles, el rendimiento pasado y el rendimiento actual, y sugiere una estrategia operativa. Responde: “¿Cuál es la mejor estrategia a seguir?”.
¿Qué es un DataFrame en pandas?
Una estructura de datos bidimensional, similar a una tabla, con etiquetas de filas y columnas.
¿Qué librerías en Python se utilizan para la adquisición de datos?
pandas (CSV, Excel, JSON, SQL), requests (APIs), BeautifulSoup y Scrapy (scraping web).
¿Qué es un data model?
Un data model especifica como piensas el mundo.
¿Cuáles son los tipos de modelo?
Plano, relacional, documento, red.
¿Qué es un modelo plano?
Un modelo simple en donde hay un tipo de entidad y todas tienen el mismo atributo. Ejemplo: log files, cdv
¿Qué es un modelo relacional?
Un modelo con mucha entidades que están conectadas por relaciones. Ejemplo: SQL
¿Qué es un modelo documento?
Un modelo donde hay jerarquía de entidades. Ejemplo: XML, JSON
¿Qué es un modelo red?
Un modelo red compleja de entidades. Ejemplo: amigos en Facebook.
¿Para qué sirve la transformación de datos? (Data wrangling)
Tiene como objetivo extraer y estnadarizar raw data. Combinar multiples fuentes y limpiar anomalías.
¿Qué tipos de problemas de datos podemos enfrentar?
Valores faltantes, incorrectos, inconsistencia en la representación.
¿Cómo podemos identificar outliers?
Con una visualización de la distribución de valores de una variable.
¿Cuál es una técnica de reducción de dimensionalidad?
Principal Component Analysis (PCA). Reduce el número de dimensiones en grandes conjuntos de datos a componentes principales que conservan la mayor parte de la información original.
¿Qué es la correlación?
La correlación indica la fuerza y la dirección de una relación lineal y la proporcionalidad entre dos variables estadísticas.
¿Qué es el coeficiente de correlación de Pearson?
Es un coeficiente de correlación que mide la correlación lineal entre dos conjuntos de datos.
Verdadero o falso: correlación implica causalidad.
Falso. La base de una asociación o correlación observada entre entre dos eventos o variables no basta para deducir legítimamente una relación de causa y efecto.
¿Qué es la paradoja de Simpson?
La paradoja de Simpson es un fenómeno en probabilidad y estadística en el que una tendencia aparece en varios grupos de datos pero desaparece o se invierte cuando los grupos se combinan.
¿Cuáles son algunas distribuciones importantes?
Normal, poisson, exponencial, binomial, multinomial, ley de potencias.
¿Qué es un modelo de regresión?
Es un modelo estadístico que estima la relación entre una variable dependiente y una o más variables independientes, generalmente para hacer predicciones o entender relaciones.
¿Cuáles son los casos de usos de una regresión?
- Predicción: Utilice el modelo ajustado para estimar el resultado y para un nuevo
X no observado durante el ajuste del modelo - Análisis descriptivo: comparar resultados promedio entre
subgrupos de datos - Modelado causal: comprender cómo cambia el resultado “y” cuando se manipulan los predictores “X”
¿Cuáles son los tipos principales de modelos de regresión?
- Regresión lineal (simple y múltiple)
- Regresión logística
- Regresión polinómica
- Regresión ridge y lasso (regularización)
- Regresión no lineal
¿Cuál es la diferencia entre regresión lineal simple y múltiple?
Regresión lineal simple: Hay una sola variable predictora.
Y=β0+β1X
Regresión lineal múltiple: Hay más de una variable predictora.
Y=β0+β1X1+β2X2+…+βnn