aspoň něco vím Flashcards

(85 cards)

1
Q

Co je to Ansombeho kvartet?

A

Série 4 datových sad, které mají stejné parametry, ale vypadají úplně jinak

Existuje verze i pro krabicové grafy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Jak se projeví odlehlé pozorování na průměru a medianu?

A

průměr se zvyšuje
medián zůstává pravděpodobně stejný

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Co to je šikmost dat?

A

Šikmost zjišťuje, zda jsou hodnoty rozloženy okolo průměru symetricky
někdy jsou více k levé nebo pravé straně, místo rovnoměrně kolem průměru
menší než -1 větší než 1, silně zešikmená
-0,5 a 0,5 přibližně symetricky

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Jaký je rozdíl mezi korelací a kauzalitou?

A

Korelace – dvě proměnné se vyskytují synchronizovaně
Kauzalita – jedna proměnná závisí na druhé

Obecně platí, že kauzalita implikuje korelaci
Rozhodně ale neplatí, že korelace implikuje kauzalitu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Jaký je rozdíl mezi intervalovou a poměrovou proměnnou?

A

Intervalové – mají definované rozdíly, které jsou stejné, tedy u teploty vyjádřené °C je rozdíl 20 °C až 30°C stejný, jako rozdíl 30 °C až 40°C

Poměrové – jsou intervalové, co mají navíc definovanou nulu, jako absenci proměnné. Teplota v °C nebo F není poměrová, neboť nula neznamená „absenci teploty“. Kelvin je tedy poměrová proměnná

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Jaký je vztah mezi pravděpodobností a inferenční statistikou?

A

Zatímco popisná statistika zkoumá soubory entit přímo, inferenční statistika je zkoumá prostřednictvím výběrů s využitím teorie pravděpodobnosti. Na získané údaje se pohlíží jako na výsledky určitého náhodného pokusu, který mohl dát i jiné výsledky. Všechny závěry inferenční statistiky tak mají pravděpodobnostní charakter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Jaký je rozdíl mezi nominální a ordinální proměnnou?

A

Nominální
o jejíž dvou hodnotách můžeme pouze říci, zda jsou stejné či různé (škola, fakulta, obor).

Ordinální(pořadová)
u jejíž dvou hodnot můžeme navíc určit pořadí (úroveň spokojenosti, vzdělání).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Jaký je rozdíl mezi inferenční a popisnou statistikou?

A

Deskriptivní statistika
je odvětví statistiky, které se zabývá popisem studované populace.

Inferenciální statistika
je typ statistiky, která se zaměřuje na vyvodění závěrů o populaci na základě analýzy vzorku a pozorování.

Inferenční statistika nám říká jak na základě vzorku (ten popíšeme pomocí deskriptivní statistiky) můžeme odvozovat parametry pravděpodobnostního modelu, ze kterého pocházejí data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Jaký je rozdíl mezi ordinální a číselnou proměnnou?

A

Ordinální obsahuje méně informací než číselná.

U číselné můžeme říct „kolikrát více je úroveň x oproti x-1”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Jaké znáte standardní skóry a k čemu slouží?

A

Každá proměnná může mít vlastní měřítko, s tím se může špatně pracovat
Proto převádíme do známých měřítek
Z-skór
ale i T-skor IQ-skor

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Jaký je rozdíl mezi populací a vzorkem?

A

Populace
Všichni zkoumaní jedinci/jednotky

Výběrový soubor (Vzorek)
Malá část celé populace, kterou jsme změřili

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Jaké znáte druhy četnosti a kdy se dá která použít?

A

Četnost
kolik čeho máme
pro všechny proměnné (ni)

Relativní četnost
vyjádření dat vůči celku
četnost / celkový počet prvku
vyjadřuje se v %
pro všechny proměnné (fi)

Kumulativní četnost
pro číselné nebo ordinální
postupně načítaná četnost jednotlivých vzestupně uspořádaných hodnot

Kumulativní relativní četnost
pro výpočet se používá relativní četnost a ne jenom četnost

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Jak dělíme statistické proměnné?

A

Kvalitativní/Kategorické
Kvantitativní

Kvalitativní/Kategorické
nominální
ordinální

Kvantitativní
Diskrétní
Spojité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Jaké jsou možné vztahy mezi dvěma proměnnými?

A

žádný vztah jednu známe nevíme nic o druhé
pozitivní vztah
negativní vztah
inverzní vztah

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Jaké jsou možnosti vizualizaci pro kvalitativní a kvantitativní proměnnou?

A

kvantitativní
-histogram

kvalitatativní
-sloupcový graf
-koláčový graf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Jaké znáte charakteristiky středu a jaké jsou mezi nimi rozdíly?

A

průměr - pro kvantitativní proměnné
medián - střední hodnota
modus - nejčastější hodnota
kvantily - dělí soubor hodnot na několik zhruba stejně velkých částí
percentily - jde o hodnotu, které dosáhne dané procento lidí

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Jak vypadá rovnice nejjednodušší regrese a jak nazýváme jednotlivé členy rovnice?

A

𝑌̂=𝑏1 𝑋+𝑏0
x nezavislá proměnná
y zavislá proměnná
b1=směrnice nebo sklon (angl. slope)
b0=výchozí hodnota nebo konstantní člen (angl. intercept)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Které deskriptivní statistiky obsahuje krabicový graf?

A

Pokud chceme zobrazit rozdíly mezi skupinami

hodně informací

Medián - tlustá čára uprostřed
Horní, dolní kvartil - krabice
Vousy - oblast s hodnotami +- 1,5 IQR
Body - odlehlé pozorování

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Jak z histogramu poznáme vlastnosti dat?

A

Můžeme vyčíst rozpětí
Pokud je distribuce symetrická, můžeme odhadnout průměr
Pokud máme málo sloupců můžeme zjistit snadno modus
Někdy nejsou data symetrická, ale jsou zešikmené

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Jaký je rozdíl mezi diskrétní a spojitou proměnnou?

A

diskrétní, nabývají pouze celočíselných obměn (počet válců automobilu)

spojité (metrické), mohou nabývat libovolných hodnot z určitého intervalu (věk respondenta, cena výrobku, roční příjem domácnosti).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Jaké znáte možnosti relativních četností pro kontingenční tabulku?

A

řádkové
sloupcové
celkové

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Jaký je rozdíl mezi extrapolací a interpolací?

A

Chceme předpovídat nové údaje (extrapolace) a porozumět dílčím zákonitostem uvnitř vývoje (interpolace)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Co nám popisuje Pearsonův korelační koeficient a kdy se používá?

A

Vyjádření jak moc se vyskytují hodnoty proměnné spolu (síla vztahu)

Jde o podíl kovariance a součinu směrodatných odchylek

Používá se tam kde nemáme odlehlá pozorovaní anebo tam, kde nemáme ordinální proměnné

rozsah -1 až 1
kladné - pozitivní závislost
záporné negativní závislost

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Jaký je rozdíl mezi charakteristikou středu a charakteristikou variability?

A

Charakteristiky středu – jak jedním čísel popsat celý vzorek, průměr, modus

Charakteristiky variability – jak moc špatně jsme určili střed, rozptýlenosti

Charakteristiky středu - Pokud bychom měli data popsat jednou proměnnou, která to bude?

Charakteristiky variability – Jak moc se data pohybují kolem středu?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Kdy použijeme korelaci a kdy regresi?
Je to na nás! Regresi je jedno, zda je mezi proměnnými vztah nebo není, pravidlo je tedy následující: Pokud chceme předpovídat jednu proměnnou na ostatních, použijeme regresi Pokud nám jde o těsnost vztahu, použijeme Pearsonův korelační koeficient
26
Co to je klouzavý průměr
Časovou řadu můžeme vyhladit od dílčích výkyvů pomocí klouzavých průměrů Klouzavý průměr je průměr sousedních pozorování časové řady. Jedná se o elementární metodu, jak odhadnout trend časové řady. Počítá se jako průměr konstantního počtu za sebou jdoucích období.
27
Co to je ARIMA model?
Auto-Regressive Integrated Moving Average autoregresní integrovaný klouzavý průměr Jde o kombinaci autoregrese a složky klouzavého průměru a případné diference Vhodné p vybíráme na základě autoregresního vztahu
28
K čemu slouží Leveneho test a jak ho interpretujeme?
Testy nestejných rozptylů Statistický test, který rozhoduje, zda jsou rozptyly několika vzorků stejné nějaké krabicové grafy?
29
Jaké znáte koeficienty míry dynamiky a jaký je mezi nimi vztah?
Chceme zachytiti jak se mění dynamika řady. Absolutní přírůstek Průměrný absolutní přírůstek Koeficient růstu Průměrný koeficient růstu Relativní přírůstek Průměrný relativní přírůstek
30
Jak funguje jednovýběrový t-test?
Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou.
31
K čemu slouží Shapiro-Wilkův test a jak ho interpretujeme?
testování normality Tento nástroj testuje hypotézu, zda je daná proměnná normálně rozložená Je-li p-hodnota větší než 0,05 normalita se nezamítá Histogram data simetricka kolem středu q-q plot
32
Co víme o rezidui časových řad
K zachycení kvality vyrovnání řady používáme rezidua Rezidua by neměly mít trend Průměrná hodnota reziduí = 0 Rozptyl reziduí je konstantní vzhledem k času
33
Jak rámcově funguje metoda MLE?
Často se vyskytuje i metoda Maximum likelihood estimate (MLE) Řeší problém s maximalizací likelihoodu. V případě regrese dostaneme stejné odhady parametrů, jako v případě metody nejmenších čtverců
34
Jaké máme závislosti časových řad?
Zdánlivá - mohou se nám zdát ne/podobné v závislosti na jejich trendových a sezónních složkách Skutečná – závislost reziduí na sobě
35
Co to je časová řada a jak je dělíme?
posloupnost hodnot řazena směrem od minulosti Okamžikové - aktuální stav nějaké míry v daném okamžiku Intervalové - kolik jevů vzniklo/zaniklo k určitému intervalu Délka dlouhodobé, krátkodobé Typ měření okamžik, interval Ukazatel absolutní, relativní Náhodnost deterministcké, stochastické Dle časových intervalů Ekvidistantní - stejné rozestupy Neekvidinstndtni - je potřeba zavést standartizaci hodnot
36
Jaký je vztah mezi směrnicí přímky a Pearsonovým korelačním koeficientem?
úzce souvisí s lineární regresí znaménko Pearsona je identické znaménku směrnice přímky pokud nejprve standartizujeme proměnné X a Y rovná se koeficient b1 přímo Pearsonovu koeficientu
37
Jaký je rozdíl mezi rozptylem, směrodatnou odchylkou a průměrnou odchylkou?
Rozptyl Jde o celkovou míru rozptýlenosti Směrodatná odchylka Určuje průměrnou odchylku od středu Průměrná odchylka Jiná alternativa, jak „znormalizovat“ možné kladné a negativní rozdíly mezi hodnotami a průměrem
38
K čemu slouží intervalový odhad?
Pro každý parametr máme ještě intervalový odhad (určuje, kde hledaný parametr nachází)
39
Co je to exponenciální vyhlazování?
Jako klouzavý průměr, ale s různou váhou předchozích pozorování α je vyhlazovací faktor Funguje dobře, pokud není v datech trend, jinak je třeba použít dvojité exponenciální vyhlazování či trojité (pokud je tam i sezónnost)
40
Jaké jsou základní možnosti vizualizace dvou proměnných?
Obě kvantitativní -Bodový graf Jedna kvantitativní, druhá kvalitativní -krabicový graf Obě kvalitativní -Mosaikový graf (nebudeme zkoušet)
41
Jaké jsou předpoklady jednovýběrového t-testu a co znamenají?
Závislá proměnná je číselná Proměnná by měly být normálně rozložená Neměly by být v datech odlehlé hodnoty Mělo by být dost dat
42
Co nám popisuje Spearmanův korelační koeficient a kdy se používá?
Někdy nás zajímá, jak zachytit, že proměnné společně rostou a ne, zda spolu tvoří přímku Spearmanův korelační koeficient se hodí pro monotónní (klesající/rostoucí) funkce pracuje s pořadím na rozdíl od skutečných hodnot pro odlehlá pozorovaní ordinální data
43
Jaké jsou problémy s testováním hypotéz?
Testovaní hypotéz závisí na nějaké arbitrární hladině významnosti Výzkumnici mohou dělat různé triky, jak dostat významnou p-hodnotu p hacking Publikuje se snáze studie s významnými p-hodnotami, problém šuplíku, není významný nález - končí v šuplíku
44
Co znamenají stupně volnosti?
U T-testu je počet stupňů volnosti roven počtu pozorování zmenšený o jedničku Hodnota parametru, který ovlivňuje tvar některého rozdělení pravděpodobnosti Parametr pro porovnání nějakého testovaného kritéria pro testování hypotéz s odpovídajícím rozdělením
45
Jak můžeme otestovat normalitu?
Shapiro-Wilkův test Podíváme se na histogram Podíváme se na Q-Q graf
46
Co je to hypotéza a jaké na ní máme požadavky?
Hypotéza by měla být jasně formulovaná pomocí závislých a nezávislých proměnných Hypotéza by měla být testovatelná Hypotéza by měla být falzifikovatelná Hypotéza by měla zmiňovat přítomnost nějakého vztahu, ne jeho nepřítomnost
47
Jak dekomponujeme časovou řadu?
rozložit na několik dílčích hodnot systematická složka trendová složka - dlouhodobý základní směr periodická složka nepravidelná složka
48
K čemu slouží testování hypotéz?
Testováním hypotéz nemůžeme nic dokázat! Pouze můžeme něco vyvrátit. Testování hypotéz je statistická metoda, která určuje, jak pravděpodobná jsou naměřená data v případě platnosti hypotézy, kterou testujeme.
49
Jaké máme tři typy proměnných vzhledem k testování hypotéz a co znamenají?
Nezávislé proměnné – jde o proměnné, co můžeme manipulovat Závislé proměnné – jde o výstupní proměnné Intervenující proměnné (Matoucí/confouding proměnné) – všechny ostatní proměnné, které mohou vztah ovlivňovat
50
Jaké jsou charakteristiky variability?
Rozpětí Rozptyl Mezikvartilové rozpětí a odchylka Směrodatná odchylka Průměrná odchylka Variační koeficient Mezikvartilové rozpětí a odchylka řeší problémy s extrémy Směrodatná odchylka - průměrná odchylka od středu
51
Jaké znáte základní neparametrické testy?
Mann-Whitneyho test Wilcoxonův test Spearmanův korelační koeficient „Fisherův exaktní test“
52
Jaký je rozdíl nulovou a alternativní hypotézou?
nulová hypotéza(H0) značí stav, „kdy se nic neděje“ Skupiny se mezi sebou neliší Průměry jsou stejné IQ vzorku se neliší od IQ populace Tuto nulovou hypotézu se snažíme vyvrátit Stanovíme si proto alternativní hypotézu HA Je rozdíl mezi skupinami Průměry nejsou stejné IQ vzorku se liší od IQ populace Snažíme se vyvrátit nulovou hypotézu ve prospěch alternativní
53
Jaké nevýhody mají neparametrické testy?
mají nižší sílu testu špatně zvládají shody (pokud se tam vyskytují stejné hodnoty) většinou pro ně neumíme dělat konfidenční intervaly většinou pro ně nemáme velikosti efektu
54
Jaká je definice pravděpodobnosti?
pravděpodobnost nám říká, jak moc můžeme očekávat, že daný jev nastane Jde o poměr žádaných výsledků všem možným výsledkům
55
Co značí podmíněná pravděpodobnost?
Závisí-li výskyt jednoho jevu na druhém, mluvíme o závislosti. Prší beru deštník Dědičná choroba- jestli jí mají rodiče P(A|B)
56
Kdy platí nulová hypotéza?
Jestliže je p-hodnota větší než hladina významnosti α (chyba α), nulovou hypotézu H0 nemůžeme zamítnout a tedy předpokládáme, že platí
57
Chyba I. druhu
hypotéza zamítnuta přestože platí.
58
Jaký je vztah elementárního jevu a náhodného jevu? Můžete uvést jeden příklad?
Elementární jev nejmenší možná událost co může nastat (na kostce nic menšího než jedno číslo) Náhodný jev komplexní událost, která může nastat (kombinace elementárních jevů) Universum množina všech elementárních jevů Pravděpodobnost náhodného jeve značíme
59
Jaké parametry má normální rozdělení a co znamenají?
mikro: střední hodnota sigma na druhou: rozptyl
60
Jaké znáte typy matoucích proměnných v DAGu?
The fork The Pipe The collider The descendant
61
Kdy se zamítá nulová hypotéza?
Jestliže p-hodnota je menší než hladina významnosti α (chyba α), zamítáme nulovou hypotézu H0
62
Co to je Berksonův paradox a jak se projevuje?
specifickou selekcí nám mohou vzniknout korelace, které jinak neexistují Dvě proměnné, které jsou za normálních podmínek nezávislé, se za jistých okolností mohou jevit závislými
63
Jaký je vztah mezi testováním hypotéz a konfidenčními intervaly?
Z konfidenčního intervalu lze poznat, zda bude p-hodnota menší Obsahuje-li interval nulovou hypotézu, tak nebude příslušný test významný Např. při testovaní korelaci je nulová hypotéza, že je korelace rovná nule
64
Jaké jsou základní vlastnosti pravděpodobnosti?
Pravděpodobnost nabývá hodnot mezi 0-1 0%-100% P(A)=1 jev jistý P(A)=0 jev nemožný
65
Jaké znáte verze χ2 testu a k čemu slouží?
Chí-kvadrát test Pearsonův test dobré shody
66
Co to je regrese k průměru?
Pokud u někoho naměříme extrémní hodnoty, možná to byla jen náhoda a při dalším opakovaní se to vrátí zpět Dá se tím vysvětlit spousta statických nálezů
67
Co to je p-hodnota?
číselná hodnota používaná při statistickém testování hypotéz. Testujeme-li na daném statistickém souboru nulovou hypotézu na hladině významnosti pomocí testové statistiky je pravděpodobnost, že při H0 by testová statistika T nabyla hodnoty, jaká vyšla z dat
68
Co to je normalita reziduí u regrese? Jak to poznáme?
Rozdíl mezi predikovanou hodnotou a skutečnou hodnotu nazýváme reziduum Mělo by platit, že rezidua jsou normálně rozdělená V Jamovi se na to dá podívat přes bodový graf, Q-Q graf, či přímo otestovat
69
Chyba II. druhu
hypotéza nezamítnuta přestože neplatí
70
Co značí back-door v DAGu?
značí matoucí proměnné, které tímto zavřeme
71
Proč se nedá použít několik t-testů na místo ANOVY
Použijeme-li několik t-testů na místo ANOVY docílíme toho, že způsobíme v testovaní buď chybu I nebo II. řádu a nejspíš obje I. zamítnutá hypotéza platí II. hypotéza není zamítnuta, přestože neplatí
72
Co přidává Bayesova věta oproti frekventistickému přístupu?
Jde o jiný přístup ke statistice, nebereme je v potaz, co jsme nalezli, ale i jak se to vyskytuje v populaci resp. co o to víme z minulých výzkumů Aktuálně velmi moderní přístup (Bayeskovská vs. frekventistická statistika)
73
Jak funguje Fork v DAGu?
Pokud Z zahrneme do modelu, uzavřeme tok informací touto cestou Omitted variable bias - opomenutí zahrnutí proměnné do modelu vám zruší závěry kauzální inference
74
Jakou mají výhody pravděpodobnostní modely oproti specifikování ručně pomocí náhodné proměnné?
Samotná náhodná proměnná je pro formalizování světa málo (chceme dělit, přičíst konstantu) Chceme popsat, jak vznikají data ve světě Známe-li vlastnosti modelu, můžeme předpovídat, jaká data dostaneme.
75
Jaké má ANOVA předpoklady
Shodnost rozptylů - každá skupina musí mít podobný rozptyl -Leveneho test Normalita rezidui q-q plot
76
Jaký je rozdíl mezi jednostranným a oboustranným testem?
Jednostranný test Používáme v případě, že máme teorii, kterým směrem je definována alternativní hypotéza Oboustranný test Nevíme, na kterou stranu by nám zamítnutí nulové hypotézy mělo jít.
77
Jak porovnáváme několik regresních modelů s více prediktory?
K porovnávání modelů nemůžeme použít R2, protože R2 vzroste vždy, když se přidá parametr Používá se tedy Adjusted R2, který penalizuje množství parametrů
78
Co značí hladina významnosti a k čemu ji používáme?
Pravděpodobnosti chyby I. a II. druhu označujeme jako α a β P(chyba I. druhu) = α P(chyba II. druhu) = β Hodnotě α říkáme hladina významnosti
79
Co říká centrální limitní věta a jaké má praktické použití?
rozdělení výběrového průměru se blíží k normálnímu rozdělení
80
K čemu slouží ANOVA
testujeme 3 a více skupin. analýza rozptylu, zda se průměry skupin rovnají, nebo některý z nich je jiný.
81
Co to je DAG?
Direct acyclic graphs - orientované acyclické grafy rozhodujeme se mezi 2 možnostmi přesná znalost chovaní DAGu nám umožní říct, kde proměnné zahrnout do modelu matoucí proměnné slouží k odstranění kauzálních vztahů
82
Jaký je vztah ANOVY a regrese?
ANOVA rozdíl mezi celkovým průměrem a jednotlivými podmínkami, Regrese rozdíl mezi baseline a ostatními podmínkami
83
Co to je studentovo t-rozdělení?
Jde o spojité rozdělení s jedním parametrem (počet stupňů volnosti) Používáme ho v případě, když neznáme rozptyl populace (což je skoro vždy) Při velkých stupních volnosti se blíží normálnímu rozdělení
84
Jak určit kvalitu modelu a jak byste ji interpretovali?
okud umocníme “fi” na druhou dostaneme koeficient determinace, který nám určuje, kolik procent variability je vysvětleno druhou proměnou Můžeme použít jako hrubou míru, jak dobrý je náš model
85
Jak porovnáváme několik regresních modelů s více prediktory?
K porovnávání modelů nemůžeme použít R2, protože R2 vzroste vždy, když se přidá parametr Používá se tedy Adjusted R2, který penalizuje množství parametrů