Statistická analýza Flashcards

(44 cards)

1
Q

3 cíle statistické analýzy

A
  1. popsat jev - deskriptivní statistika (zpřehlednění souboru dat, tvorba grafů a tabulek)
  2. vysvětlit jev - bivariační analýza, indukce, inference (souvislosti, vztah zobecnění na základní populaci)
  3. predikovat jev - modelování (III. semestr)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

případ (case)

A

= výzkumná jednotka, jednotka analýzy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

paradigma odpovídá na 3 základní otázky

A
  • ontologická otázka (jaká je povaha reality kterou zkoumáme)
  • epistemologická otázka (jaká je podstata poznání)
  • metodologická otázka (jakým způsobem se produkuje vědění, porozumění a pochopení)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

standardizované výpovědi

A
    • lze vyjádřit čísly nebo číslicemi → poruchy (skutečné chování převáděno) → výpovědi o realitě nemusejí být realitou samotnou!
      • jako čísla (kardinální proměnné) nebo číslice (ordinální nebo nominální)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

durifikace dat - Petrusek

A

ztvrzení, postupně během práce s daty je považujeme za více přesná a pravdivá, věříme jejich odrazu reality → může vést k hyperpřesnosti kdy uvádíme výsledky na několik desetinných míst a nereflektovaně!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

kvantitativní výzkum (3 charakteristiky)

A
  • práce s hromadnými daty
  • sledování tendencí mezi homogenní skupinou (homogenní např. vzděláním) - nezajímají nás tedy hodnoty jedince, ale jsou přínosné až v souboru odpovědí jako celku
  • logika - sledování tendencí mezi h. s., hledání souvislostí mezi hodnotami (tedy proměnnými), sledování vývoje (při opakovaném průzkumu)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

cílová populace (general universum/population)

A
  • soubor jednotek (okruh osob) vymezený sociálními či demografickými vlastnostmi pro který chceme vyslovit závěry
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

výběrové šetření

A

X census neboli vyčerpávající zjišťování

  • výběrové soubory (samples) → výběrová šetření
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

cílem reprezentativnost výběrového souboru, ta pomocí:

A
  • pravděpodobnostního (náhodného) výběru
  • zobecnění na cílovou populaci (! lze pouze při dodržení pravidel při práci s náhodným výběrem)
  • → před získáním výběrového souboru nutno vymezit cílovou populaci, pouze na ni je pak možno aplikovat výsledky výzkumu (časté zkreslování reality dnes)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

de Vass

A

schéma pro výběr výzkumných otázek

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

obecné schéma procesu měření

A

pozorovatel - měřicí přístroj a postupy (- měřicí stupnice) - objekt měření

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

měříme (4)

A
  • intenzitu vlastností
  • distanci objektů (tj. vlastností)
  • závislosti či souvislosti
  • globální vlastnosti souborů
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

chyby měření

A
  • = rozdíl mezi pozorování a predikcí (odhadem)
  • základní teorie měření s chybou počítá
  • X = T + e (X naměřená hodnota, T skutečná a správná hodnota, e chyba měření)
    1. náhodná chyba (”šum”) - není tak závažná, náhodné výchylky se totiž vyskytují v záporném i kladném směru a tak se vyruší
    • středí hodnota je stejná jako při skutečné hodnotě
    • variabilita (rozptyl) je větší (hodnoty šířeji rozloženy)
      1. systematická chyba (”zkreslení”) - chyba výzkumníka nebo v. nástroje (např. neoprávněným zobecněním)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

relevance

A
  • vhodnost použité procedury ve vztahu k měřenému problému (lze pomocí určení typu proměnné)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

validita

A
  • rozsah ve kterém měření koresponduje se skutečnou vlastností která má být měřena (”měříme to co skutečně měřit chceme”)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

reliabilita

A

(spolehlivost, konzistence, předpověditelnosti) - rozsah ve kterém způsob měření dává konzistentní výsledky (”do jaké míry jsou výsledky opakovaného měření shodné s původním měřením”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

senzitivita a specificita

A
  • schopnost testu dávat pozitivní odpověď pokud má dotazovaný příslušnou vlastnost

specificita - schopnost testu dávat negativní odpověď pokud dotazovaný nemá příslušnou vlastnost

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hypotéza

A
  • = věta o vztahu (nejméně) dvou proměnných, vychází z výzkumné otázky (př. muži akceptují jízdu na černo častěji než ženy x nikoli muži rádi jezdí na černo)
  • očekávání o povaze věcí
  1. teoretické - výroky vycházejí z teorie
  2. empirické - empiricky testované výroky
  3. výchozí - teoretická nebo empirická, komplexní
  4. pracovní - předpovídá souvislosti mezi proměnnými které musejí mít validní operační definici
  5. kauzální - proměnné jsou asociovány nebo korelovány, musejí existovat jejich souběžné změny
  6. vztahové - pravděpodobnostní charakter
  7. věcné - týkají se existence, výskytu, vlastností, vztahů, vývoje či procesů jevů, lidí, skupin (dle Kelingera je nelze testovat)
  8. statistické - hypotetické tvrzení o relacích (sociologické hypotézy se nejč. skládají z více statistických hypotéz)
19
Q

části výzkumu (3)

A
  1. téma - předmět výzkumu
  2. výzkumný problém - na který odpovídáme prostřednictvím výzkumu
  3. výzkumná otázka/hypotéza - specifikuje problém do takové míry že vzniknou odpovědi se kterými se již obracíme na dotazované
20
Q

pracovní modely

A
  • způsob výkladu reality (vs. komplexní a otevřené sociální systémy)
  • verbální, matematické, diagramy
    1. abstraktní popis systému - nejjednodušší
    2. konceptuální modely - pojmy řady vzájemně vztažených pojmů
    3. teoretické modely - teorie která vysvětluje výběr a uspořádání prvků modelu
21
Q

problém předmětu zkoumání v sociologii

A

sociální systémy:
- jsou komplexní - při použití jednoduchého modelu dochází k nevyhnutelnému ale zanedbatelnému zjednodušení (simplifikaci)
- jsou otevřené - vždy existují proměnné které jsme do výzkumu nezahrnuly (viz šipky vedoucí z prostoru u modelu výše)

22
Q

hromadná data

A
  • užití ve kvant. výzkumu s otázkami - jak mnoho a jak něco s něčím souvisí
  • ukazatelé tendencí (na rozdíl od výpovědí jednotlivců)
  • = informace o větším počtu výzkumných jednotek a jejich charakteristikách
  • ukládají se do datové matice, kdy každý řádek odpovídá jednomu případu, každý sloupec jedné proměnné (charakteristice)
  • vznikají přepisem z dotazníků, záznamových archů apod.
23
Q

zpracování dat (9)

24
Q

Podmínky proměnné

A
  1. rozlišitelnost (diskriminabilita) mezi vlastnostmi objektu uvnitř proměnné (muž x žena) = musí variovat (nabývat alespoň dvou hodnot)
  2. zařaditelnost - ke každému stavu vlastnosti existuje příslušná hodnota znaku (ke každé politické straně je přiřazena hodnota)
  3. jednoznačnost - dvě různé hodnoty znaku nemohou odpovídat jednomu stavu vlastnosti
  4. reprezentativnost dat - umožní zobecnění, při určitém typu výzkumu není nezbytné
25
testování normálního rozložení
1. **graficky** - z histogramu odhadneme "okometricky" 2. **z šikmosti a špičatosti** 3. **Q-Q graf** - body jsou umístěny na přímce 4. Kolmogorov-Smirnov test - signifikance > 0,05 → rozložení je normální
26
šikmost a špičatost
- **skewness - šikmost** = odchylka od symetrie - symetrické (normální) rozložení - koeficient šikmosti = 0 - sešikmení k vyšším hodnotám - koeficient šikmosti > 0 (kladný) - sešikmení k nižším hodnotám - koeficient šikmosti < 0 - **kutosis - špičatost** = odchylka od normálního rozložení - koeficient šikmosti = 0 = normální rozložení, kladný = pravostranné rozdělení, záporný = levostranné rozdělení - koeficient špičatosti = 0 = normální rozložení, kladný = hodnoty v blízkosti střední hodnoty, záporný = plošší křivka - jsou-li hodnoty > 1 → rozložení není normální - Výpočet: šikmost nebo špičatost / jejich std. chyba > 1,96 → rozložení není normální
27
Míry centrální tendence
- modus (nejčastější hodnota) - zejm. pro **nominální** - medián (střední hodnota) - zejm. pro **ordinální** (nelze pro nominální) - průměr (průměrná hodnota) - pouze **kardinální** (výjimečně ordinální) pro spojité proměnné (vs. kategoriální: frekvence) - pokud je proměnná - **ordinální** s dlouhou škálou - **kardinální** - obecně proměnná s **mnoha kategoriemi** (≥ 10) - používáme **průměr, medián, modus** - jedno číslo reprezentuje celý datový soubor - značné **zkreslení** (např. průměrný počet nohou u savců = 3) → nutností, řešením je uvádět kromě průměru také informace o **rozptylu**
28
Kategorické proměnné: frekvence
- pokud je proměnná: - **nominální** - její kategorie lze pouze vyjmenovat - **ordinální -** s krátkou škálou - obecně proměnná s **málo kategoriemi** (<10, … jiná pojetí) - k jejímu popisu - **frekvenční tabulka** (nejč. uvádíme jen) - **počet (frekvence)** - absolutní počet odpovědí v dané kategorii (každá kategorie má jiný počet platných odpovědí a tak většinou neuvádíme) - **podíl (procenta)** - podíl odpovědí v dané kategorii, zahrnuje i chybějící hodnoty - **validní (procenta)** - podíl odpovědí v dané kategorii bez započtení chybějících hodnot, většinou pro čtenáře nejdůležitější hodnota - **kumulativní (procenta)** - podíl odpovědí v dané kategorii a všech kategoriích předchozích, uvádíme jen u ordinálních proměnných
29
testování normálního rozložení (4)
1. **graficky** - z histogramu odhadneme 2. **z šikmosti a špičatosti** 3. **Q-Q graf** - body jsou umístěny na přímce 4. **Kolmogorov-Smirnov test** - signifikance > 0,05 → rozložení je normální
30
jak docílit norm. rozložení (2)
pomocí neparametrické statistiky: 1. **transformace proměnné** - tj. každou hodnotu upravíme stejnou matematickou funkcí (dělení, logaritmování, umocňování atd.) - centrovaná data (jejich tvorba jedním ze způsobů transformace) - od každé hodnoty dané proměnné odečteme průměr této proměnné - z-skóre (= standardizované skóre, jeho výpočet jedním ze způsobů transformace) - převod původních hodnot na hodnoty s **průměrem = 0** a **σ = 1** 2. **parametrickou statistikou** - platí totiž centrální limitní věta, teorém - se vzrůstající velikostí (náhodně vybraného) výběrového souboru se výběrová distribuce blíží -normálnímu rozdělení (tj. je-li výběrový soubor dostatečně velký (větší než 100) lze využít i statistických postupů které norm. rozdělení předpokládají)
31
Standardizované (normované) rozložení
- **proces standardizace** - pomocí **z-skóre** (tj. standardizovaná, normovaná náhodná veličina) - výpočtem **z-skóre** → **standardizované normální rozdělení** (základ pro **inferenční statistiku**, tedy pro odhady **populačních parametrů z výběrových statistik**)
32
z-skór
- udává - kolik směr. odchylek je určitý případ nad nebo pod průměrem - např. (81-70) / 5 = +2,2 (dvě směr. odchylky od průměru) - napomáhá ke - srovnávání proměnných se zcela jinými jednotkami - např. respondent má plat s hodnotou z-skóru +2 a ve vzdělání -1 → výrazně nadprůměrný plat s podprůměrným vzděláním
33
podmínky pro použití parametrického testu (4)
1. normalita rozdělení - normální rozložení datového souboru 2. shoda rozptylů (homoskedasticita) - rozptyly různých proměnných které porovnáváme jsou podobné (např. při porovnávání platu a věku, podobné rozptyly zaručí zastoupení všech věkových skupin podobně) 3. intervalová data - proměnná je kardinální 4. nezávislost měření - jeden subjekt není ovlivněn jiným subjektem (závislost hrozí při opakovaném testování)
34
Vážení souboru
- využíváme při vychýleném výběru (tj. když je nějaká kategorie pod/nad reprezentována, např. respondenti dotazníku jsou v průměru starší než populace na kterou chceme výsledky aplikovat) - **vážení souboru** = podreprezentované kategorie budeme počítat vícekrát a naopak - vzorec: váha = populace (%) / výběr (%) - dále se počítá pomocí příkazů nebo pomocí staženého balíčku
35
Typy vah a Následná manipulace s daty
1. designové - podreprezentovaná kategorie bude mít váhu > 1, nadreprezentovaná kategorie bude mít váhu < 1 2. poststratifikační (váha tvořená až po získání dat) - v případech kdy je design vyvážený Následná manipulace s daty - práce s **podsouborem dat** 1. výběr a pojmenování podsouboru jako nového souboru (*Subset active data set*) 2. výpočty s podsouborem (*Subset expression*)
36
3+2 typy definic
Reálná definice = odráží reifikaci pojmů, snaha specifikovat "reálný" význam pojmů vede pouze k chybám - konstrukt pro reálnou entitu. Nominální definice = přiřazená k termínu bez nároku na to, že definice představuje "skutečnou" entitu, většinou představuje konsenzus nebo konvenci o tom, jak by se měl určitý termín používat. Operační definice =přesně specifikuje, jakým způsobem bude koncept měřen - tedy jaké operace se rozhodneme provádět. Operační definice je spíše nominální než reálná, ale dosahuje maximální jasnosti ohledně toho, co koncept znamená v kontextu dané studie. Formální definice: Proces stanovení konkrétních výzkumných procedur, které povedou k empirickým pozorováním zvolených jevů (konceptů), která budou tyto koncepty reprezentovat ve výzkumu Věcná definice: Převod neměřitelných jevů a konceptů do měřitelných znaků a indikátorů
37
Pravidla operacionalizace (2)
Pravidlo č. 1: používejte osvědčené měřicí instrumenty věk vzdělání příjem sociální třída religiozita anomie Pravidlo č. 2: pokud vytváříte nový měřicí nástroj, berte do úvahy dimenze rozsah hodnot variace mezi extrémy
38
informace o rozptylu + VZORCE
1. směr. odchylka 2. rozptyl 3. var. koeficient 4. var. rozpětí (range)
39
Korelace
̶Statistická metoda, která ukazuje sílu vztahu dvou proměnných ̶Pokud se dvě proměnné mění souběžně, mají silnou korelaci ̶Pokud se dvě proměnné mění nezávisle, mají slabou korelaci ̶Pokud předpokládáme kauzální vztah
40
Korelační koeficient
̶Podle typu proměnných a počtu jejich kategorií volíme správný koeficient korelace ̶Všechny koeficienty nabývají hodnoty 0–1, přičemž hodnota 0 znamená neexistující vztah, hodnota 1 znamená velmi těsný vztah ̶Výsledek může mít znaménko + (přímá úměra) nebo – (nepřímá úměra)
41
Přímá vs nepřímá úměra
- Přímá (korelace kladná): když jedna proměnná roste, roste i druhá proměnná - Nepřímá (korelace záporná): když jedna proměnná roste, druhá proměnná klesá
42
Postup vyhodnocení korelace
1. Zvolíme správný koeficient (Cramérovo V, Kendallovo tau, Spearmanovo rhó) 2. Provedeme výpočet (ve statistickém programu) 3. Vyhodnotíme směr korelace (podle znaménka, bez ohledu na hodnotu) 4. Vyhodnotíme sílu korelace (bez ohledu na znaménko, 0,00 až 1,00, Liší se jen směrem souvislosti (přímá, nepřímá)) 5. Vyhodnotíme zobecnitelnost výsledku (viz další semestr) 6. Vše číselně i slovně popíšeme (mezi proměnnými je podstatná/žádná korelace)
43
Dva zásadní problémy bivariační analýzy
̶Problém zobecnitelnosti: platí to, co jsme zjistili v našem výběrovém vzorku, na celou populaci? zjistíme v 2. semestru v rámci tzv. statistické inference ̶Problém kauzality: že různě vzdělaní respondenti dosahují různého věku znamená, že vzdělání ovlivňuje věk, nebo že věk ovlivňuje vzdělání, nebo je to náhoda?
44
Problém kauzality
̶Samotné zjištění vztahu mezi dvěma proměnnými neznamená, že tento vztah je příčinný / kauzální (že změna jedné proměnné je příčinnou změny druhé proměnné) ̶„korelace není kauzalita“ ̶Kauzalitu ale můžeme odhadovat ze splnění jiných podmínek **1. obě proměnné se mění společně** ̶Když jedna roste, druhá roste, NEBO ̶Když jedna klesá, druhá roste ̶A naopak ̶To zjistíme pomocí bivariační analýzy (kontingenční tabulka, srovnání průměrů) **2. změny probíhají v logickém časovém pořadí** ̶Pokud hledáme vztah mezi vzděláním rodiče a vzděláním potomka, můžeme logicky předpokládat, že rodič získal své vzdělání o mnoho let dříve než potomek ̶Je tedy logické, že vzdělání rodiče ovlivní vzdělání potomka ̶Vzdělání potomka (které nastalo o x let později) nemůže zpětně ovlivnit vzdělání rodiče ̶To zjistíme logickou úvahou, případně teoretickým modelem **3. změny nejsou způsobeny vlivem dalších proměnných** ̶Tzv. falešné a nepřímé vlivy ̶Naučíme se odhalovat pomocí tzv. elaborace vlivu třetí proměnné v závěru tohoto semestru ̶I v tomto kroku je ale důležité logické uvažování a opora o teoretický model