Resumen Examen III Flashcards
(95 cards)
¿Qué es la Minería de Datos?
Es el proceso de seleccionar, explorar, modificar, modelar y valorar grandes cantidades de datos para descubrir patrones desconocidos que puedan ser utilizados como ventaja competitiva.
¿Qué áreas se relacionan con la Minería de Datos?
- Inteligencia Artificial
- Estadística
- Bases de Datos
- Visualización de información
- Matemáticas
- Aprendizaje Automático
¿Por qué ha tomado fuerza la Minería de Datos?
Debido a:
* Valor de los datos
* La consolidación de los datos
* Madurez tecnológica
¿Qué es un problema predictivo en Minería de Datos?
Es un problema en el que se busca predecir comportamientos futuros, utilizando aprendizaje supervisado para clasificar o estimar resultados.
¿Qué son los problemas descriptivos en Minería de Datos?
Problemas que buscan describir el conjunto de datos, utilizando aprendizaje no supervisado para hallar asociaciones y patrones.
¿Qué es la Clasificación en Minería de Datos?
Es una tarea predictiva en la que la variable de interés es categórica
¿Qué es la Estimación en Minería de Datos?
Es una tarea predictiva en la cual se estima el valor numérico de la variable target utilizando los valores de los predictores
Los valores predictores son los datos base utilizados
¿Qué es el Clustering en Minería de Datos?
Es una tarea descriptiva que agrupa registros en clases similares entre sí, pero diferentes a los de otros grupos.
Cluster = Conjunto de registros relacionados
Técnicas comunes en Minería de Datos para problemas predictivos
- Árboles de decisión
- Bosques aleatorios
- Regresión logística
- Redes neuronales
Técnicas comunes para Clustering
Método de k-means, redes neuronales, algoritmos aglomerativos y clustering basado en densidad.
Técnicas comunes para Análisis de relaciones o
Asociaciones
- Algoritmos A priori
- FP-Growth
¿Qué es CRISP-DM?
Es un framework para proyectos de Minería de Datos que incluye pasos como:
* Entender el negocio
* Entender los datos
* Preparacion de los datos (Ej. ETL)
* Modelado
* Evaluación de desempeño
* Despliegue
Estos pasos:
- Comprender el problema
- Selección de los datos
- Exploración de datos
- Preparar conjuntos de entrenamiento y prueba 70/30
- Seleccionar la técnica
- Seleccionar criterios de desempeño
- Ejecutar el modelo
Corresponden a:
Proceso genérico de minería de datos
¿Qué requieren los árboles de decisión para clasificar?
Aprendizaje supervisado, un conjunto de datos de entrenamiento y prueba, y una variable a predecir que sea categórica.
¿Cómo se eligen los nodos en un árbol de decisión?
Usando medidas de pureza o impureza como:
* Entropía
* Índice de Gini
* Ganancia de Información
Técnica de clasificación basada en nodos puros
Árbol de decisión
Nodos Puros = Nodos donde todos los registros son de la misma
clase
Cuales son los algoritmos para árboles de decisión
- CART (Classification And Regression Tree)
- ID3 (Iterative Dichotomiser 3)
- C4.5
Algoritmo que sólo permite clasificaciones binarias
CART
−Σpk log2(pk), donde k es el número de valores posibles de la variable objetivo.
Fórmula de la Entropía
Algoritmo que no garantiza soluciones óptima y genera árboles pequeños en poco tiempo
ID3
¿Qué indica una alta AUC en una curva ROC?
Buen rendimiento del modelo; cuanto más cercana a 1, mejor la precisión de la clasificación.
- Verdaderos positivos (TP)
- Falsos positivos (FP)
- Falsos negativos (FN)
- Verdaderos negativos (TN)
Elementos de la matriz de confusión para evaluar modelos de clasificación.
¿Qué mide la sensibilidad en un modelo de clasificación?
Capacidad del modelo para seleccionar correctamente los verdaderos positivos.
Fórmula: TP/(TP+FN)
¿Qué mide la precisión en un modelo de clasificación?
La proporción de casos correctamente predichos como positivos entre todos los predichos como positivos.