Cuanti Flashcards
(113 cards)
¿Para qué se usa la T-student?
Está diseñada para comparar si el promedio de dos grupos es diferente. La ocupamos cuando necesitamos realizar la estimación de un parámetro o un contraste de hipótesis cuando se desconoce la desviación estándar de la población (desconocemos la varianza
¿Qué entrega la T-student?
Entrega un valor observado (de la muestra), que se compara con el teórico (la tabla, que indica el comportamiento de la población) para ver las diferencias [Obtenemos dos muestras y evaluamos qué tan diferentes son los promedios.
¿Cómo es la distribución T-student?
Es una distribución teórica continua y simétrica, con una media igual a cero (0). Su varianza en cambio es mayor que 1. El área total bajo la curva o distribución es igual a 1. Al igual que la distribución normal estandarizada, tiene una forma de campana.
¿Qué son los grados de libertad para t-student?
El único parámetro de la distribución t-Student es el número de grados de libertad. (Hay una distribución t diferente para cada valor de grados de libertad. La distribución t se aproxima a la distribución normal a medida que aumentan los grados de libertad. Más “n”, más grados de libertad, mayor inferencia y, por ende, aumenta la posibilidad de encontrar el parámetro, puedo decir con “libertad” que es una aproximación acertada).
¿Para qué muestras se puede usar la t-student?
- Para una muestra: Evaluar si el promedio es distinto a un valor específico.
- Para muestras dependientes: Dos mediciones en la misma muestra. Evaluar si el promedio de una variable es diferente del promedio de otra variable. Calculamos la diferencia en el puntaje para cada caso, el promedio de las diferencias y la desviación estándar de las diferencias. Ocupamos la fórmula y vemos la probabilidad de obtener ese valor t (o uno mayor).
Para muestras independientes: La misma medición en dos muestras distintas. La varianza de la diferencia entre dos variables independientes es igual a la suma de sus varianzas Por lo tanto, podemos simplemente sumar el error estándar de cada muestra. Esta fórmula sólo es correcta cuando los N son iguales para ambos grupos. En caso contrario, simplemente hacemos
una suma ponderada por n, o más exactamente, en base a los grados de libertad (n - 1).
¿Qué es el coeficiente de correlación (r)?
Es un estimador de la correlación que existe en la población r (rho). Al igual que con la media, podemos encontrar la probabilidad de obtener una correlación determinada si la hipótesis nula fuera correcta (hipótesis nula > no hay relación > r = 0). Si en la población existe una relación determinada entre dos variables, la mayoría de las muestras van a mostrar dicha relación. Es decir, la distribución muestral de r tiende a ser una distribución normal (entre -1 y 1) a medida que el “n” de la muestra aumenta. Por lo tanto, podemos usar la distribución t.
¿Que es la prueba ANOVA?
- Evalúa la relación entre una variable categórica y una variable numérica, por ejemplo, “comparar el promedio de varias poblaciones”.
- Se analiza la varianza, en vez de los promedios. → se compara la variabilidad entre los grupos con la variabilidad intragrupal.
- Solo entrega información respecto a si hay diferencias entre los grupos, en general.
¿Qué se diferencia la prueba t de ANOVA?
Prueba t vs. ANOVA → Anova sirve para cuando queremos comparar más de dos condiciones experimentales, la prueba t se limita a 2. Además, muchas variables categóricas simplemente tienen más de dos grupos (ej. carrera, comuna)
¿Qué indica la homecedasticidad?
indica que las varianzas de los grupos comparados (los niveles del factor) son estadísticamente equivalentes. Para comprobarla se hace una prueba Levene que es básicamente un ANOVA de los residuales intra-grupo. Si se cumple el supuesto NO debería haber diferencias entre los grupos, en otras palabras, si el supuesto se cumple, esta prueba debe ACEPTAR la H0. En caso de haber heterocedasticidad (no cumplir con la homocedasticidad), se puede analizar los datos usando la razón de Welch, que ajusta los cálculos del ANOVA en relación a las diferencias de varianza y tamaño muestral detectadas, afectando el valor final de F y los grados de libertad del cálculo.
¿Qué puede hacer ANOVA en cuanto a la varianza?
ANOVA permite descomponer y analizar la razón entre variabilidad inter-grupo y variabilidad intra-grupo.
- Variabilidad intra-grupo: Distancia de los puntajes de cada sujeto respecto del promedio de su grupo.
- Variabilidad inter-grupo: Distancia de los promedios de cada grupo respecto del gran promedio total.
- Variabilidad Total: Corresponde a la distancia que existe entre su puntaje y el gran promedio total. La variabilidad total se descompone en: La distancia entre el promedio del grupo del sujeto y el promedio total. La distancia entre el puntaje del sujeto y su respectivo promedio grupal. *k=grupos; i=casos (personas). *La diferencia intra-grupal=error (esto porque debería ser homogénea).
- Varianza explicada (variación entre los grupos) + Varianza no explicada (variación dentro de los grupos) = Varianza total.
¿Qué es la distribución F?
Se desprende desde ANOVA)
- Al comparar la media de cuadrados (MC) que puede ser atribuida al modelo con la media residual de cuadrados, se obtiene una proporción que sigue una distribución F.
- Prueba F es la distribución, que permite contrastar la variabilidad atribuible a los individuos vs la variabilidad atribuible a condiciones experimentales.
F es cercano a 0 → variabilidad entre grupos pequeña y una variabilidad intragrupo grande. Si F es muy grande es al revés.
- F < 1 → el error es más grande que lo explicado, la varianza del error > que la varianza intergrupal
- F = 1 → error y lo explicado miden lo mismo
- F > 1→ lo explicado es más grande que el error.
(Debemos evaluar la probabilidad que ese valor f ocurra cuando se cumple la H nula del ANOVA)
- Aumenta F → las diferencias son significativas (se debe comprobar con el P value) es muy probable que haya diferencias en los grupos. Va a significar que hay menos error, la varianza explicada es grande.
¿Qué son los grados de libertad?
Número de observaciones independientes que se requieren o necesarias para estimar un parámetro. (Gl = [número de observaciones independientes] – [número de parámetros estimados])
- Mientras más grande sea el valor de F, menor será el área bajo la curva → La probabilidad de encontrar la razón de variabilidades cuando vienen de la misma población es extremadamente pequeña.
¿Qué es el tamaño del efecto?
Podemos dividir la suma de cuadrados entre grupos por la suma de cuadrados total, y obtenemos el porcentaje de varianza explicada por la pertenencia a los grupos (r2).
r = 0.1 > Relación pequeña > r2 = 0.01 > 1% r = 0.3 > Relación mediana > r2 = 0.09 > 9% r = 0.5 > Relación fuerte > r2 = 0.25 > 25%
¿Qué es el prueba de Tukey?
es una comparación múltiple de promedios. No considera los intervalos de confianza que contienen el 0.
- Tukey compara los pares de niveles de la variable independiente para detectar cuales de ellos muestran diferencias estadísticamente significativas. Toma la varianza de la ANOVA y a partir de ello hace las comparaciones. En cada comparación la hipótesis nula es que los niveles que están siendo comparados no son estadísticamente distintos. Hace todas las posibles comparaciones posibles. *Recordar: Si contiene cero en el intervalo, no es significativo, si no si lo es.
¿Que es el Chi cuadrado (x2)?
- Evalúa la relación entre dos o más variables categóricas (nominales u ordinales).
- Evalúa qué tanto se alejan los datos observados en una muestra de una distribución teórica, es decir, si los datos observados se ajustan a lo esperado teóricamente. Se puede evaluar las hipótesis acerca de proporciones poblacionales considerando las distancias (o diferencia o ajuste) entre las frecuencias observadas y las frecuencias esperadas o supuestas para cada categoría (acorde a la hipótesis nula). Entre más grande, más probabilidad de asociación de variables.
- Las frecuencias esperadas al azar se pueden calcular multiplicando la frecuencia total de la columna y de la fila, dividiendo por el N total. Básicamente consiste en evaluar cuánto se alejan las frecuencias observadas de las esperadas. Si aceptamos la hipótesis nula decimos que las frecuencias observadas se ajustan a las esperadas (esto es, no hay diferencias entre lo observado y lo esperado acorde a la hipótesis nula).
- La fórmula para el estadístico x2 es básicamente sumar las diferencias (al cuadrado) y dividir por la frecuencia esperada.
- Las diferencias corresponden a la distribución aleatoria x2 que se basa
en la distribución normal. Para evaluar la significación estadística de x2 observado debemos comparar dicho valor con el que se obtiene de la distribución (tabla) de x2, que indica la probabilidad de ocurrencia de dicho valor con ciertos grados de libertad.
¿Cuales son los supuestos de chi cuadrado?
La muestra es aleatoria. Las observaciones son independientes. El N es suficiente: las frecuencias esperadas deben ser mayores a 5 (aunque hay correcciones cuando esto no se cumple).
¿Cual es una limitación importante de chicuadrado?
Una limitación importante es que no indica dónde están las diferencias. A diferencia del coeficiente de r de Pearson, x2 no indica la magnitud de la relación, solo indica si están o no asociadas las variables (por ser variables nominales u ordinales).
¿Qué es el cruce de variables?
El cruce de variables o tabla de contingencia permite determinar el comportamiento simultáneo de dos variables. Para ello se hace una tabla donde una variable está en las filas y la otra en las columnas. La combinación de ambas variables se produce en las celdas de la tabla. La H0 postula que las celdas son iguales.
¿Qué es la asociación de variables?
Es evaluar si la variabilidad en una está asociada con la variabilidad en otra. Podemos ver cómo se “combinan” los puntajes de cada una de mis variables independientes con la variable dependiente, por medio de dispersogramas. En un dispersiograma cada punto refleja la combinación de ambos puntajes para cada sujeto.
¿Qué es la covarianza?
Mide la variación conjunta de dos variables, pero es afectada por los cambios de unidades de medida. La co-variación significa que un cambio en x (Vi), co-varía con un cambio en y (Vd).
¿Qué es la correlación?
Estandariza la covarianza. Se estandariza para que no haya problema de interpretación. [r = Coeficiente de Pearson]. Una correlación entre dos variables tiene n – 2 grados de libertad. Sólo sirve para distribuciones lineales.
¿Qué es el tamaño de la relación?
Dado que es una medida estandarizada, el signo indica la dirección de la relación (positiva/directa o negativa/inversa). El valor indica el monto o magnitud de la relación (desde ausencia de relación, débil o fuerte). Para ver la significancia, t es el estimador/ el error estándar del estimador.
Los valores posibles para una correlación van entre -1 (correlación perfecta negativa) y +1 (correlación perfecta positiva). Si la relación es más fuerte, x es mejor predictor de y.
- Ausencia de relación lineal = 0
- Relación pequeña ≥ 0.1
- Relación mediana ≥ 0.3
- Relación fuerte ≥ 0.5
¿Qué es la varianza explicada?
Si las variables están relacionadas, quiere decir que tienen varianza en común. Cuántos cambios en “x” (Vi) influye en “y” (Vd). A mayor r, más varianza explicada (en común) hay.
- r = 0.1 > Relación pequeña > r2 = 0.01 > 1%
- r = 0.3 > Relación mediana > r2 = 0.09 > 9%
- r = 0.5 > Relación fuerte > r2 = 0.25 à 25%
¿Para qué sirve el análisis de regresión lineal simple?
Sirve para predecir una variable, sabiendo cómo se comporta la otra. Esto lo hace a partir de la recta de regresión, en torno a la cual, se ajustan los datos con las distancias cuadráticas mínimas. Esta recta (línea) de regresión representa la mejor solución estimada para predecir los datos (variable dependiente) a partir de la variable independiente.*El hacer predicción no significa hacer una relación causal entre dos variables.