Statistics Flashcards
(36 cards)
variables
свойства объектов, которые поддаются измерению
measures of the central trend
Это тип описательных статистик. Используются, когда нужно отразить наиболее типичные значения, присутствующие в выборке.
measures of variability
Это тип описательных статистик. Используются, когда нужно отразить степень разброса значений относительно меры центральной тенденции.
range
Разность между макс. и мин. значениями (чувствителен к выбросам).
interquartile range
Разность между самым большим и самым маленьким значением с учетом выброса (отсечения по 25 % с обеих сторон).
variance
средний квадрат отклонений индивидуальных значений признака от их средней величины. Это сумма квадратов отклонений, деленная на кол-во значений. Дисперсии для ген. совокупности и для выборки вычисл. (вычитаем из n в знаменателе число 1) по разным формулам.
standard deviation
корень из дисперсии по выборке (sd), среднеквадратическое отклонение - корень из дисперсии (для ГС) сигма
quartiles
три точки (значения признака), которые делят упорядоченное множество данных на четыре равные части
standardization or z-transformation
преобразование полученных данных в стандартную z-шкалу (Z-scores) со средним Mz=0 и Dz = 1. Позволяет ответить на вопрос: «Какой процент наблюдений лежит в абсолютно любом интересующем нас диапазоне (xi-x сред.выборки раздел на сигму х)
t-distribution
используется, когда число наблюдений невелико и сигма неизвестна. Унимодально, симметрично, но наблюдения обычно попадают за пределы +-2сигм от М
t-критерий Стьюдента для несвязанных выборок (парный t-тест)
Для расчета необходимо из среднего размера значений одной выборки вычесть средний размер значений другой выборки и поделить их на стандартную ошибку этой разности.
Чем больше t-критерий, тем явно различие между выборками.
U-критерий Манна-Уитни
непараметрический критерий. Для подсчета необходимо выстроить все значения двух выборок в ряд (от меньшего к большему) и назначить им ранги (самое большое значение - первый ранг). Затем снова разделить значения на две группы и посчитать суммы рангов отдельно для каждой выборки. Чем сильнее будут отличаться эти суммы, тем больше различий между выборками.
average error (se)
sd**2/ n
Критерий Хи-квадрат Пирсона
непараметрический метод. Позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей). Используется, когда нет точных размеров (вычисляется с помощью таблиц сопряженности).Чем больше значение статистики хи-квадрат, тем сильнее отличия между наблюдаемыми и ожидаемыми значениями — и тем вероятнее, что между факторами действительно есть связь.
F-критерий равенства дисперсий Фишера
используется, чтобы узнать различия по разнообразию разных видов (в делителе стоит большая дисперсия, в знаменателе - меньшая)
degree of freedom
(используется при работе с табл. критических значений и расчете р-уровня значимости) – это то количество значений, которые мы должны узнать, чтобы найти все значения при известном среднем или дисперсии. Если есть только одна выборка, то это кол-во значений минус 1. Если добавляется другая выборка, то общее кол-во степеней свободы – это сумма всех значений минус 2.
р-уровень значимости
вероятность того, что мы получили такие или еще более выраженные различия абсолютно случайно. При помощи этого показателя мы выясним, какую гипотезу в нашем условии считать более состоятельной. Чем меньше уровень, тем больше оснований отклонить нулевую гипотезу. Для определения р-уровня значимости применяют таблицы критических значений (если полученный результат превышает значение в таблице, то значения выборок отличаются, исключение – критерий Уитни и схожие с ним).
Дисперсионный анализ (Analysis of variance)
параметрический метод (не очень любит выбросы и ненормальное распределение данных, используются средние значения). Применяется, если больше двух выборок.
SST (total sum of squares – общая сумма квадратов)
показатель, который характеризует, насколько высока изменчивость наших данных без учета разделения их на группы. Похож на дисперсию. Может проистекать только из двух источников: SSB (sum of squares between groups) and SSW (sum of squares with in groups).
SSW (внутригрупповая сумма квадратов)
сумма отклонений от среднего для элементов каждой из групп.
SSB (сумма квадратов межгрупповая)
насколько групповые средние отклоняются от общего среднего. Можем рассчитывать для групп с разным числом элементов.
F- критерий Фишера (основной статистический показатель дисперсионного анализа)
это отношение межгрупповой изменчивости, деленное на соответствующее количество степеней свобод, к внутригрупповой изменчивости, также деленной на кол-во степеней свобод.
Н-критерий Краскела-Уоллеса
непараметрический метод. Объединяем значения всех выборок в одну группу, упорядочиваем их от самого большого до самого маленького и присваиваем ранги. Делим на группы, складываем ранги, сравниваем полученные значения между собой. Чем сильнее различаются суммы рангов, тем больше вероятность отвергнуть нулевую гипотезу.
t-критерий Стьюдента с поправкой Бонферрони
апостериорный критерий. Вычисляется как обычный критерий Стьюдента. Поправка касается критического значения, с которым мы сравниваем р-уровень значимости (0,05). Это значение нужно поделить на кол-во попарных сравнений.