Statistics Flashcards

(36 cards)

1
Q

variables

A

свойства объектов, которые поддаются измерению

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

measures of the central trend

A

Это тип описательных статистик. Используются, когда нужно отразить наиболее типичные значения, присутствующие в выборке.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

measures of variability

A

Это тип описательных статистик. Используются, когда нужно отразить степень разброса значений относительно меры центральной тенденции.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

range

A

Разность между макс. и мин. значениями (чувствителен к выбросам).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

interquartile range

A

Разность между самым большим и самым маленьким значением с учетом выброса (отсечения по 25 % с обеих сторон).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

variance

A

средний квадрат отклонений индивидуальных значений признака от их средней величины. Это сумма квадратов отклонений, деленная на кол-во значений. Дисперсии для ген. совокупности и для выборки вычисл. (вычитаем из n в знаменателе число 1) по разным формулам.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

standard deviation

A

корень из дисперсии по выборке (sd), среднеквадратическое отклонение - корень из дисперсии (для ГС) сигма

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

quartiles

A

три точки (значения признака), которые делят упорядоченное множество данных на четыре равные части

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

standardization or z-transformation

A

преобразование полученных данных в стандартную z-шкалу (Z-scores) со средним Mz=0 и Dz = 1. Позволяет ответить на вопрос: «Какой процент наблюдений лежит в абсолютно любом интересующем нас диапазоне (xi-x сред.выборки раздел на сигму х)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

t-distribution

A

используется, когда число наблюдений невелико и сигма неизвестна. Унимодально, симметрично, но наблюдения обычно попадают за пределы +-2сигм от М

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

t-критерий Стьюдента для несвязанных выборок (парный t-тест)

A

Для расчета необходимо из среднего размера значений одной выборки вычесть средний размер значений другой выборки и поделить их на стандартную ошибку этой разности.
Чем больше t-критерий, тем явно различие между выборками.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

U-критерий Манна-Уитни

A

непараметрический критерий. Для подсчета необходимо выстроить все значения двух выборок в ряд (от меньшего к большему) и назначить им ранги (самое большое значение - первый ранг). Затем снова разделить значения на две группы и посчитать суммы рангов отдельно для каждой выборки. Чем сильнее будут отличаться эти суммы, тем больше различий между выборками.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

average error (se)

A

sd**2/ n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Критерий Хи-квадрат Пирсона

A

непараметрический метод. Позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей). Используется, когда нет точных размеров (вычисляется с помощью таблиц сопряженности).Чем больше значение статистики хи-квадрат, тем сильнее отличия между наблюдаемыми и ожидаемыми значениями — и тем вероятнее, что между факторами действительно есть связь.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

F-критерий равенства дисперсий Фишера

A

используется, чтобы узнать различия по разнообразию разных видов (в делителе стоит большая дисперсия, в знаменателе - меньшая)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

degree of freedom

A

(используется при работе с табл. критических значений и расчете р-уровня значимости) – это то количество значений, которые мы должны узнать, чтобы найти все значения при известном среднем или дисперсии. Если есть только одна выборка, то это кол-во значений минус 1. Если добавляется другая выборка, то общее кол-во степеней свободы – это сумма всех значений минус 2.

17
Q

р-уровень значимости

A

вероятность того, что мы получили такие или еще более выраженные различия абсолютно случайно. При помощи этого показателя мы выясним, какую гипотезу в нашем условии считать более состоятельной. Чем меньше уровень, тем больше оснований отклонить нулевую гипотезу. Для определения р-уровня значимости применяют таблицы критических значений (если полученный результат превышает значение в таблице, то значения выборок отличаются, исключение – критерий Уитни и схожие с ним).

18
Q

Дисперсионный анализ (Analysis of variance)

A

параметрический метод (не очень любит выбросы и ненормальное распределение данных, используются средние значения). Применяется, если больше двух выборок.

19
Q

SST (total sum of squares – общая сумма квадратов)

A

показатель, который характеризует, насколько высока изменчивость наших данных без учета разделения их на группы. Похож на дисперсию. Может проистекать только из двух источников: SSB (sum of squares between groups) and SSW (sum of squares with in groups).

20
Q

SSW (внутригрупповая сумма квадратов)

A

сумма отклонений от среднего для элементов каждой из групп.

21
Q

SSB (сумма квадратов межгрупповая)

A

насколько групповые средние отклоняются от общего среднего. Можем рассчитывать для групп с разным числом элементов.

22
Q

F- критерий Фишера (основной статистический показатель дисперсионного анализа)

A

это отношение межгрупповой изменчивости, деленное на соответствующее количество степеней свобод, к внутригрупповой изменчивости, также деленной на кол-во степеней свобод.

23
Q

Н-критерий Краскела-Уоллеса

A

непараметрический метод. Объединяем значения всех выборок в одну группу, упорядочиваем их от самого большого до самого маленького и присваиваем ранги. Делим на группы, складываем ранги, сравниваем полученные значения между собой. Чем сильнее различаются суммы рангов, тем больше вероятность отвергнуть нулевую гипотезу.

24
Q

t-критерий Стьюдента с поправкой Бонферрони

A

апостериорный критерий. Вычисляется как обычный критерий Стьюдента. Поправка касается критического значения, с которым мы сравниваем р-уровень значимости (0,05). Это значение нужно поделить на кол-во попарных сравнений.

25
Критерий Тьюки (Tukey HSD)
это апостериорный статистический тест, который используется для определения, отличаются ли средние значения двух наборов данных. Он проводится после того, как тест ANOVA показал значимое различие в средних трёх или более наборов данных.Похож на t-тест. Сравнивает все комбинации средних, однако, иначе рассчитывается se. С помощью критерия Тьюки можем рассчитать доверительный интервал - разница между средними значениями группы А и средними значениями группы В. Если такой доверительный интервал не включает в себя 0, то можно отклонить Н0.
26
Критерий Фридмана (непараметрический аналог дисперсионного анализа с повторными измерениями)
применяется, если есть выбросы и/или распределение отличается от нормального. Каждому межиндивидуальному значению присваиваем ранг (например, 1-самое плохое значение, 3 – самое хорошее). Получаем таблицу. Если первые показатели самые плохие, а последние хорошие, то суммы рангов будут сильно различаться, а нулевая гипотеза будет опровергнута.
27
Коэф. корреляции Пирсона (параметрический критерий
может изменяться в пределах от -1 до 1, где -1-отрицательная связь, 1 – положительная, 0 – отсутствие связи.
28
Кэф. корреляции Спирмена (непараметрический аналог Пирсена)
подсчитывается с помощью упорядочивания значений от большего к меньшему и присвоения рангов по разным признакам. Если результаты ранжирования совпадают, то имеется положительная связь, если они противоположны – отрицательная связь. Критерий получается благодаря формуле, интерпретируется аналогично r-критерию Пирсона.
29
Коэффициент детерминации
R2 - показывает, в какой степени дисперсия одной переменной обусловлена влиянием другой переменной. Равен квадрату кэф корреляции. Принимает значения от 0 до 1.
30
linear regression
один из простейших алгоритмов МО, описывающий зависимость целевой переменной от признака в виде линейной функции y=kx+b (простая или парная лин.регрессия), еще есть множественная. Признаки определения линейной регрессии: гомоскедастичность (дисперсия остатков постоянная и конечна) и отсутствие мультиколлинеарности (линейной зависимости между признаками).
31
Метод наименьших квадратов
выбор регрессионной линии (плоскости), описывающей взаимосвязь данных наилучшим образом, заключается в минимизации функции потерь, представленной в виде среднеквадратичной ошибки.
32
Способы обучения линейной регрессии
1)прямое уравнение в аналитическом виде - высокая вычислительная сложность при большом кол-ве признаков; 2) итеративная оптимизация с постепенным снижением ошибки модели на основе градиентного спуска и его разновидностей - чаще всего используется на практике.
33
построение линейной регрессии на основе градиентного спуска
1) устанавливаются нулевые значения для весов, смещения и их градиентов. 2) на основе установленных значений делается прогноз. 3) на основе полученного прогноза пересчитываются значения весов и смещения, а также снижение их градиентов (разность значений на текущей и предыдущей итерациях). 4) шаги 2-3 повторяются до тех пор, пока снижение градиентов не станет заранее установленного порогового значения. 5) итоговым прогнозом будет линейная комбинация полученных весов+ смещение и признаков на тестовой выборке.
34
Scikit-learn
один из наиболее широко используемых пакетов Python.Scikit-Learn поддерживает: предварительную обработку данных; уменьшение размерности; выбор модели; регрессии; классификации; кластерный анализ.он не имеет комплексной поддержки для: нейронных сетей; самоорганизующихся карт (сетей Кохонена); обучения ассоциативным правилам; обучения с подкреплением (reinforcement learning)
35
Методы классификации
логистическая регрессия, k-ближайшие соседи, метод опорных векторов, наивный байесовский классификатор, дерево принятия решений, а также ансамбль методов, такие как random forest, AdaBoost и градиентный бустинг.
36