Extended_Flashcards_Data_Science
Pregunta
Respuesta
¿Qué es la covarianza?
La covarianza es una medida que indica la dirección de la relación lineal entre dos variables. Valores positivos indican una relación directa; valores negativos, una inversa.
Diferencia entre Machine Learning y Deep Learning
Machine Learning es un campo de AI que permite a los sistemas aprender de la experiencia sin programación explícita. Deep Learning es un subcampo que utiliza redes neuronales profundas para aprender de grandes volúmenes de datos.
¿Qué implica la adquisición de datos en la ciencia de datos?
La adquisición de datos en la ciencia de datos implica recopilar información de múltiples fuentes para su análisis, y varía según la fuente y el tipo de datos.
Explique qué son los datos abiertos y su importancia
Los datos abiertos son datos públicos disponibles para ser utilizados, reutilizados y redistribuidos por cualquiera, ayudando a promover la transparencia y el desarrollo de soluciones innovadoras.
Mencione algunos tipos de bases de datos y sus características
Tipos de bases de datos incluyen Relacionales (almacenan datos en tablas interconectadas), No Relacionales (almacenamiento más flexible), y Bases de Datos de Grafos (útiles para analizar relaciones complejas).
¿Qué es la varianza y cómo se relaciona con la desviación estándar?
La varianza es el promedio de los cuadrados de las diferencias entre cada observación y la media. La desviación estándar es la raíz cuadrada de la varianza, proporcionando una medida de dispersión.
Describa la regla empírica en estadística
La regla empírica, o regla 68-95-99.7, establece que aproximadamente 68% de los datos caen dentro de 1 desviación estándar de la media, 95% dentro de 2, y 99.7% dentro de 3.
¿Qué es un Boxplot y qué representa?
Un Boxplot o diagrama de caja muestra la distribución de datos numéricos a través de cuartiles, resaltando medianas y valores atípicos.
Describa el proceso de Web Scraping
Web Scraping es el proceso de extracción de datos específicos de sitios web, transformando datos no estructurados en estructurados.
¿Cómo se utiliza la visualización de datos en la fase de comprensión?
La visualización de datos convierte conjuntos de datos complejos en gráficos que facilitan la observación de tendencias y patrones, crucial en la comprensión de los datos.
¿Qué es un histograma y para qué se usa?
Un histograma es un gráfico que muestra la distribución de frecuencias de datos numéricos, útil para entender la dispersión y centralidad de los datos.
Explique el uso de mapas de calor en la visualización de datos
Los mapas de calor utilizan colores para representar magnitudes de datos en matrices, útiles para visualizar complejidades como la actividad de usuarios por tiempo y día.
¿Qué es la normalización de datos y por qué es importante?
La normalización ajusta la escala de los datos para asegurar que las variables se midan a escalas comparables, crucial para muchos algoritmos de análisis.
Mencione las fases de la metodología CRISP-DM
Las fases de CRISP-DM incluyen entendimiento del negocio, de los datos, preparación de los datos, modelado, evaluación y despliegue.
¿Qué desafíos se enfrentan en la adquisición de datos?
Los desafíos en la adquisición de datos incluyen acceso restringido a datos, problemas de formato, y garantizar que los datos recopilados sean reutilizables.
¿Qué es un gráfico de control y cómo se utiliza?
Un gráfico de control es utilizado en el control de procesos para monitorear datos y detectar variaciones que indican problemas.
Importancia de la calidad de los datos en análisis
La calidad de los datos asegura análisis precisos y confiables, afectando directamente la validez de los resultados de análisis.
¿Qué es el Data Profiling y qué problemas ayuda a resolver?
Data Profiling examina y resume estadísticamente los datos, identificando problemas como valores duplicados o faltantes, crucial para la calidad del análisis.
Explicar el concepto y uso del Data Mining
Data Mining es el proceso de descubrir patrones y conocimientos en grandes conjuntos de datos utilizando técnicas de estadísticas y machine learning.
Definir el término ‘Big Data’ y su relevancia
Big Data se refiere a conjuntos de datos tan grandes o complejos que requieren tecnologías avanzadas para su procesamiento eficaz.
Características de los datos estructurados
Datos estructurados están organizados en un formato definido, lo que facilita su almacenamiento, búsqueda y análisis.
Diferencias entre datos transaccionales y operativos
Los datos transaccionales registran transacciones, mientras que los operativos incluyen datos que son necesarios para el funcionamiento diario de una empresa.
¿Cómo afectan los metadatos erróneos el análisis de datos?
Metadatos erróneos pueden llevar a interpretaciones equivocadas de los datos, afectando la calidad y eficacia del análisis.