aspoň něco vím Flashcards

Question

Kdy použijeme korelaci a kdy regresi?

Answer 1

Je to na nás! Regresi je jedno, zda je mezi proměnnými vztah nebo není, pravidlo je tedy následující: Pokud chceme předpovídat jednu proměnnou na ostatních, použijeme regresi Pokud nám jde o těsnost vztahu, použijeme Pearsonův korelační koeficient

Answer 2

Časovou řadu můžeme vyhladit od dílčích výkyvů pomocí klouzavých průměrů Klouzavý průměr je průměr sousedních pozorování časové řady. Jedná se o elementární metodu, jak odhadnout trend časové řady. Počítá se jako průměr konstantního počtu za sebou jdoucích období.

Answer 3

Auto-Regressive Integrated Moving Average autoregresní integrovaný klouzavý průměr Jde o kombinaci autoregrese a složky klouzavého průměru a případné diference Vhodné p vybíráme na základě autoregresního vztahu

Answer 4

Testy nestejných rozptylů Statistický test, který rozhoduje, zda jsou rozptyly několika vzorků stejné nějaké krabicové grafy?

Answer 5

Chceme zachytiti jak se mění dynamika řady. Absolutní přírůstek Průměrný absolutní přírůstek Koeficient růstu Průměrný koeficient růstu Relativní přírůstek Průměrný relativní přírůstek

Answer 6

Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou.

Answer 7

testování normality Tento nástroj testuje hypotézu, zda je daná proměnná normálně rozložená Je-li p-hodnota větší než 0,05 normalita se nezamítá Histogram data simetricka kolem středu q-q plot

Answer 8

K zachycení kvality vyrovnání řady používáme rezidua Rezidua by neměly mít trend Průměrná hodnota reziduí = 0 Rozptyl reziduí je konstantní vzhledem k času

Answer 9

Často se vyskytuje i metoda Maximum likelihood estimate (MLE) Řeší problém s maximalizací likelihoodu. V případě regrese dostaneme stejné odhady parametrů, jako v případě metody nejmenších čtverců

Answer 10

Zdánlivá - mohou se nám zdát ne/podobné v závislosti na jejich trendových a sezónních složkách Skutečná – závislost reziduí na sobě

Answer 11

posloupnost hodnot řazena směrem od minulosti Okamžikové - aktuální stav nějaké míry v daném okamžiku Intervalové - kolik jevů vzniklo/zaniklo k určitému intervalu Délka dlouhodobé, krátkodobé Typ měření okamžik, interval Ukazatel absolutní, relativní Náhodnost deterministcké, stochastické Dle časových intervalů Ekvidistantní - stejné rozestupy Neekvidinstndtni - je potřeba zavést standartizaci hodnot

Answer 12

úzce souvisí s lineární regresí znaménko Pearsona je identické znaménku směrnice přímky pokud nejprve standartizujeme proměnné X a Y rovná se koeficient b1 přímo Pearsonovu koeficientu

Answer 13

Rozptyl Jde o celkovou míru rozptýlenosti Směrodatná odchylka Určuje průměrnou odchylku od středu Průměrná odchylka Jiná alternativa, jak „znormalizovat“ možné kladné a negativní rozdíly mezi hodnotami a průměrem

Answer 14

Pro každý parametr máme ještě intervalový odhad (určuje, kde hledaný parametr nachází)

Answer 15

Jako klouzavý průměr, ale s různou váhou předchozích pozorování α je vyhlazovací faktor Funguje dobře, pokud není v datech trend, jinak je třeba použít dvojité exponenciální vyhlazování či trojité (pokud je tam i sezónnost)

Answer 16

Obě kvantitativní -Bodový graf Jedna kvantitativní, druhá kvalitativní -krabicový graf Obě kvalitativní -Mosaikový graf (nebudeme zkoušet)

Answer 17

Závislá proměnná je číselná Proměnná by měly být normálně rozložená Neměly by být v datech odlehlé hodnoty Mělo by být dost dat

Answer 18

Někdy nás zajímá, jak zachytit, že proměnné společně rostou a ne, zda spolu tvoří přímku Spearmanův korelační koeficient se hodí pro monotónní (klesající/rostoucí) funkce pracuje s pořadím na rozdíl od skutečných hodnot pro odlehlá pozorovaní ordinální data

Answer 19

Testovaní hypotéz závisí na nějaké arbitrární hladině významnosti Výzkumnici mohou dělat různé triky, jak dostat významnou p-hodnotu p hacking Publikuje se snáze studie s významnými p-hodnotami, problém šuplíku, není významný nález - končí v šuplíku

Answer 20

U T-testu je počet stupňů volnosti roven počtu pozorování zmenšený o jedničku Hodnota parametru, který ovlivňuje tvar některého rozdělení pravděpodobnosti Parametr pro porovnání nějakého testovaného kritéria pro testování hypotéz s odpovídajícím rozdělením

Answer 21

Shapiro-Wilkův test Podíváme se na histogram Podíváme se na Q-Q graf

Answer 22

Hypotéza by měla být jasně formulovaná pomocí závislých a nezávislých proměnných Hypotéza by měla být testovatelná Hypotéza by měla být falzifikovatelná Hypotéza by měla zmiňovat přítomnost nějakého vztahu, ne jeho nepřítomnost

Answer 23

rozložit na několik dílčích hodnot systematická složka trendová složka - dlouhodobý základní směr periodická složka nepravidelná složka

Answer 24

Testováním hypotéz nemůžeme nic dokázat! Pouze můžeme něco vyvrátit. Testování hypotéz je statistická metoda, která určuje, jak pravděpodobná jsou naměřená data v případě platnosti hypotézy, kterou testujeme.

Answer 25

Nezávislé proměnné – jde o proměnné, co můžeme manipulovat Závislé proměnné – jde o výstupní proměnné Intervenující proměnné (Matoucí/confouding proměnné) – všechny ostatní proměnné, které mohou vztah ovlivňovat

Answer 26

Rozpětí Rozptyl Mezikvartilové rozpětí a odchylka Směrodatná odchylka Průměrná odchylka Variační koeficient Mezikvartilové rozpětí a odchylka řeší problémy s extrémy Směrodatná odchylka - průměrná odchylka od středu

Answer 27

Mann-Whitneyho test Wilcoxonův test Spearmanův korelační koeficient „Fisherův exaktní test“

Answer 28

nulová hypotéza(H0) značí stav, „kdy se nic neděje“ Skupiny se mezi sebou neliší Průměry jsou stejné IQ vzorku se neliší od IQ populace Tuto nulovou hypotézu se snažíme vyvrátit Stanovíme si proto alternativní hypotézu HA Je rozdíl mezi skupinami Průměry nejsou stejné IQ vzorku se liší od IQ populace Snažíme se vyvrátit nulovou hypotézu ve prospěch alternativní

Answer 29

mají nižší sílu testu špatně zvládají shody (pokud se tam vyskytují stejné hodnoty) většinou pro ně neumíme dělat konfidenční intervaly většinou pro ně nemáme velikosti efektu

Answer 30

pravděpodobnost nám říká, jak moc můžeme očekávat, že daný jev nastane Jde o poměr žádaných výsledků všem možným výsledkům

Answer 31

Závisí-li výskyt jednoho jevu na druhém, mluvíme o závislosti. Prší beru deštník Dědičná choroba- jestli jí mají rodiče P(A|B)

Answer 32

Jestliže je p-hodnota větší než hladina významnosti α (chyba α), nulovou hypotézu H0 nemůžeme zamítnout a tedy předpokládáme, že platí

Answer 33

hypotéza zamítnuta přestože platí.

Answer 34

Elementární jev nejmenší možná událost co může nastat (na kostce nic menšího než jedno číslo) Náhodný jev komplexní událost, která může nastat (kombinace elementárních jevů) Universum množina všech elementárních jevů Pravděpodobnost náhodného jeve značíme

Answer 35

mikro: střední hodnota sigma na druhou: rozptyl

Answer 36

The fork The Pipe The collider The descendant

Answer 37

Jestliže p-hodnota je menší než hladina významnosti α (chyba α), zamítáme nulovou hypotézu H0

Answer 38

specifickou selekcí nám mohou vzniknout korelace, které jinak neexistují Dvě proměnné, které jsou za normálních podmínek nezávislé, se za jistých okolností mohou jevit závislými

Answer 39

Z konfidenčního intervalu lze poznat, zda bude p-hodnota menší Obsahuje-li interval nulovou hypotézu, tak nebude příslušný test významný Např. při testovaní korelaci je nulová hypotéza, že je korelace rovná nule

Answer 40

Pravděpodobnost nabývá hodnot mezi 0-1 0%-100% P(A)=1 jev jistý P(A)=0 jev nemožný

Answer 41

Chí-kvadrát test Pearsonův test dobré shody

Answer 42

Pokud u někoho naměříme extrémní hodnoty, možná to byla jen náhoda a při dalším opakovaní se to vrátí zpět Dá se tím vysvětlit spousta statických nálezů

Answer 43

číselná hodnota používaná při statistickém testování hypotéz. Testujeme-li na daném statistickém souboru nulovou hypotézu na hladině významnosti pomocí testové statistiky je pravděpodobnost, že při H0 by testová statistika T nabyla hodnoty, jaká vyšla z dat

Answer 44

Rozdíl mezi predikovanou hodnotou a skutečnou hodnotu nazýváme reziduum Mělo by platit, že rezidua jsou normálně rozdělená V Jamovi se na to dá podívat přes bodový graf, Q-Q graf, či přímo otestovat

Answer 45

hypotéza nezamítnuta přestože neplatí

Answer 46

značí matoucí proměnné, které tímto zavřeme

Answer 47

Použijeme-li několik t-testů na místo ANOVY docílíme toho, že způsobíme v testovaní buď chybu I nebo II. řádu a nejspíš obje I. zamítnutá hypotéza platí II. hypotéza není zamítnuta, přestože neplatí

Answer 48

Jde o jiný přístup ke statistice, nebereme je v potaz, co jsme nalezli, ale i jak se to vyskytuje v populaci resp. co o to víme z minulých výzkumů Aktuálně velmi moderní přístup (Bayeskovská vs. frekventistická statistika)

Answer 49

Pokud Z zahrneme do modelu, uzavřeme tok informací touto cestou Omitted variable bias - opomenutí zahrnutí proměnné do modelu vám zruší závěry kauzální inference

Answer 50

Samotná náhodná proměnná je pro formalizování světa málo (chceme dělit, přičíst konstantu) Chceme popsat, jak vznikají data ve světě Známe-li vlastnosti modelu, můžeme předpovídat, jaká data dostaneme.

Answer 51

Shodnost rozptylů - každá skupina musí mít podobný rozptyl -Leveneho test Normalita rezidui q-q plot

Answer 52

Jednostranný test Používáme v případě, že máme teorii, kterým směrem je definována alternativní hypotéza Oboustranný test Nevíme, na kterou stranu by nám zamítnutí nulové hypotézy mělo jít.

Answer 53

K porovnávání modelů nemůžeme použít R2, protože R2 vzroste vždy, když se přidá parametr Používá se tedy Adjusted R2, který penalizuje množství parametrů

Answer 54

Pravděpodobnosti chyby I. a II. druhu označujeme jako α a β P(chyba I. druhu) = α P(chyba II. druhu) = β Hodnotě α říkáme hladina významnosti

Answer 55

rozdělení výběrového průměru se blíží k normálnímu rozdělení

Answer 56

testujeme 3 a více skupin. analýza rozptylu, zda se průměry skupin rovnají, nebo některý z nich je jiný.

Answer 57

Direct acyclic graphs - orientované acyclické grafy rozhodujeme se mezi 2 možnostmi přesná znalost chovaní DAGu nám umožní říct, kde proměnné zahrnout do modelu matoucí proměnné slouží k odstranění kauzálních vztahů

Answer 58

ANOVA rozdíl mezi celkovým průměrem a jednotlivými podmínkami, Regrese rozdíl mezi baseline a ostatními podmínkami

Answer 59

Jde o spojité rozdělení s jedním parametrem (počet stupňů volnosti) Používáme ho v případě, když neznáme rozptyl populace (což je skoro vždy) Při velkých stupních volnosti se blíží normálnímu rozdělení

Answer 60

okud umocníme “fi” na druhou dostaneme koeficient determinace, který nám určuje, kolik procent variability je vysvětleno druhou proměnou Můžeme použít jako hrubou míru, jak dobrý je náš model

Answer 61

K porovnávání modelů nemůžeme použít R2, protože R2 vzroste vždy, když se přidá parametr Používá se tedy Adjusted R2, který penalizuje množství parametrů

aspoň něco vím Flashcards

(85 cards)