mineria 2 Flashcards
(99 cards)
¿Qué es PCA en pocas palabras?
Técnica que transforma un gran número de variables correlacionadas en un conjunto más pequeño, llamadas componentes principales
¿Cuál es la motivación principal del PCA?
Análisis de datos masivos de alta dimensionalidad requiere una etapa previa de reducción de la dimensionalidad
¿Cuál es el paso intermedio en el análisis de datos de alta dimensionalidad?
Paso intermedio para algoritmos de clustering
¿Dónde se aplica comúnmente el PCA?
En diversas aplicaciones de Inteligencia Artificial, como la visión por ordenador y la compresión de imágenes
¿Cuáles son los pasos clave del PCA?
Estandarización, Matriz de Covarianza, Valores y Vectores Propios, Ordenación de Valores, Selección de Componentes, Transformación de la Matriz Original
¿Qué es la estandarización en PCA?
Estandarizar el conjunto de datos para que todas las variables tengan la misma escala
¿Qué representa la matriz de covarianza en PCA?
La matriz que indica cómo las variables están relacionadas entre sí
¿Qué son los valores y vectores propios?
Valores propios representan la varianza y vectores propios representan las direcciones de los componentes principales
¿Qué significa ordenar los valores propios?
Ordenar valores y vectores propios de mayor a menor para elegir los más importantes
¿Cómo se seleccionan los componentes en PCA?
Seleccionando los k valores propios más grandes para formar la matriz de vectores propios
¿Qué es la transformación de la matriz original?
Usar la matriz de vectores propios para transformar la matriz original en un espacio de menor dimensión
¿Cómo se usa PCA en minería de datos?
Para relación entre variables, interpretación y visualización, reducción de la dimensionalidad, análisis genético
¿Qué permite PCA sobre la relación entre variables?
Revelar las relaciones entre las variables del conjunto de datos
¿Qué utilidad tiene el PCA para visualización?
Ayuda a interpretar y visualizar datos de alta dimensionalidad
¿Qué ventaja ofrece PCA en reducción de dimensionalidad?
Reduce el número de variables para facilitar el análisis posterior y mejorar la eficiencia
¿Cómo se aplica PCA al análisis genético?
Se usa para visualizar distancia genética y relaciones entre poblaciones
¿Qué ventajas tiene el PCA?
Mejora la comprensión de datos, acelera algoritmos y facilita la visualización
¿Cómo mejora PCA la comprensión de datos?
Eliminando características correlacionadas y reduciendo la dimensionalidad
¿Cómo acelera el PCA otros algoritmos?
Reduciendo la dimensionalidad, lo que mejora la eficiencia en conjuntos de datos grandes
¿Cómo facilita el PCA la visualización?
Convirtiendo los datos de alta dimensionalidad en baja dimensionalidad
¿Qué desventajas tiene el PCA?
Pérdida de información, solo capta correlaciones lineales, y no aplica bien en todos los casos
¿Por qué el PCA puede causar pérdida de información?
Elimina componentes que podrían ser importantes para el análisis
¿Por qué es un problema que PCA solo detecte correlaciones lineales?
Ya que no capta relaciones no lineales entre variables
¿En qué casos no funciona bien PCA?
Si la media y la covarianza no son suficientes para describir los datos